Aplicaciones de Las Representaciones Tiempo Frecuencia en El Procesamiento de Voz

SUBSECRETARA DE EDUCACIN SUPERIOR
DIRECCIN GENERAL DE EDUCACIN SUPERIOR

TECNOLGICA
INSTITUTO TECNOLGICO
DE MORELIA
INSTITUTO TECNOLGICO DE MORELIA

DIVISIN DE ESTUDIOS PROFESIONALES
DEPARTAMENTO DE INGENIERA ELECTRNICA
MONOGRAFA
APLICACIONES DE LAS
REPRESENTACIONES TIEMPO
FRECUENCIA EN PROCESAMIENTO DE VOZ
QUE PARA OBTENER EL TTULO DE:

INGENIERO EN ELECTRNICA
PRESENTA:
JESS VLADIMIR ALVARADO MAGDALENO
ASESOR:
M.C. JULIO CSAR HERRERA GARCA
MORELIA, MICHOACN
ABRIL DEL 2010
AGRADECIMIENTOS
A ti pap, por haberme dado los consejos y el nimo necesario para ir viviendo
cada etapa de mi vida. Por tu enseanza de saber disfrutar y buscar las cosas
que verdaderamente son importantes en la vida.
A ti mam, por demostrarme la fuerza y el nimo incansable para hacer

siempre bien las cosas. Por la preocupacin y el nimo que nos das para
vernos volar en grande.
A ustedes Nathaly y Sofi, por la confianza y el apoyo que siempre he tenido de

su parte, por la enseanza que en ocasiones, sin querer, me brindan.
A ti Eli, por ser la persona que ha vivido ms cercano el proceso de lograr este
proyecto, por los tiempos que se sacrificaron, por el apoyo y compresin que
siempre me has dado. Te amo.
A mis amigos y compaeros de estudio, por el hecho de estar siempre cerca,

de apoyarnos mutuamente en todo.
A mis tas, Loren y Elena, que s que les hubiera encantado estar aqu, junto a
mi, pero que s que donde quiera que se encuentren estarn muy felices de
verme terminar este proceso
A toda mi familia, que siempre unida, se apoya los unos a los otros. A la familia
Alvarado Gonzlez, y la familia Magdaleno Martnez.
NDICE
RESUMEN
iv
OBJETIVOS
JUSTIFICACIN
vi
MOTIVACIN
vii
INTRODUCCIN
CAPTULO 1 CONCEPTOS DE PROCESAMIENTO DE SEALES
1.1 SEALES
1.1.1 Tipos de seales
1.1.2 Seales continuas y discretas
1.1.3 Sistemas discretos
2
3
4
6
1.2 SISTEMAS LINEALES INVARIANTES EN EL TIEMPO

1.2.1 Discretos
1.2.2 Continuos
1.2.3 Propiedades de los sistemas lti
6
7
8
10
1.3 LA TRANSFORMADA CONTINUA DE FOURIER

1.3.1 Representacin de seales aperidicas
1.3.2 La transformada de Fourier para seales peridicas
1.3.3 Propiedades de la transformada continua de Fourier
12
13
19
20
1.4 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO

1.4.2 La transformada de Fourier de tiempo discreto para
seales peridicas
1.4.3 Propiedades de la transformada de Fourier de tiempo discreto
26
26
31
33
CAPTULO 2 CARACTERIZACIN EN TIEMPO Y FRECUENCIA

2.1 CONCEPTO DE TIEMPO FRECUENCIA
36
2.2 TRANSFORMADA DE FOURIER DE TIEMPO CORTO
39
2.3 DISTRIBUCIN WIGNER VILLE
42
2.4 TRANSFORMADA DE GABOR

2.4.1 Ventanas comnmente utilizadas
2.4.2 Ejemplo de anlisis de voz
47
49
51
2.5 TRANSFORMADA WAVELET
53
ii
CAPTULO 3
APLICACIONES DE PROCESAMIENTO DE VOZ
3.1 APLICACIONES CON MATLAB Y CSLU TOOLKIT

3.1.1 CSLU Toolkit
3.1.2 MatLab
57
57
60
3.2 APLICACIONES UTILIZANDO ESPECTROGRAMAS

3.2.1 Sistema de reconocimiento de voz mediante el anlisis
de espectrograma.
3.2.2 Mtodos de identificacin usando anlisis de voz
64
3.3 APLICACIONES USANDO WAVELETS

3.3.1 Procedimiento y dispositivo de clasificacin de las seales
del habla.
3.3.2 Mtodo para la extraccin de caractersticas de seales
de voz y sistema relacionado con el reconocimiento de voz.
3.4 APLICACIONES USANDO OTRAS DISTRIBUCIONES
TIEMPO FRECUENCIA
3.4.1 Anlisis de palabras utilizando la transformada de Gabor.
3.4.2 Anlisis tiempo- frecuencia para reconocimiento de voz
utilizando la distribucin Wigner Ville suavizada.
64
71
77
77
86
93
93
97
CONCLUSIONES
102
LISTA DE FIGURAS
104
REFERENCIAS
106
iii
RESUMEN
En este trabajo de investigacin se vern las principales funciones matemticas

en el procesamiento de voz. Todo descrito de una manera simple y detallada,
hablando de diversos temas, desde la transformada de Fourier hasta los
mtodos que se utilizan para trabajar con el anlisis tiempo frecuencia, tales
como la transformada de Gabor y la transformada Wavelets, sus anlisis
matemticos, propiedades y la utilizacin ms frecuente que se les da a dichas
transformadas. Tambin se tendr la oportunidad de analizar diferentes tipos
de aplicaciones relacionadas con el reconocimiento de voz, los cuales utilizan
todas las herramientas descritas anteriormente.
iv
OBJETIVOS
El objetivo general de esta monografa consiste en presentar de una manera

global las aplicaciones que tiene en el mundo actual el procesamiento de voz y
conocer las herramientas matemticas necesarias para poder capturar y
procesar los sonidos.
Tambin podemos delimitar algunos objetivos particulares:
Explicar las nociones bsicas acerca del procesamiento de seales.
Explicar y analizar la Transformada, continua y discreta, de Fourier. En

cada una presentar el caso de aplicarla en seales peridicas y
aperidicas, as como sus propiedades.
Hablar sobre la caracterizacin Tiempo Frecuencia y conocer las

diferentes funciones que nos ayudan a dicha caracterizacin.
Mostrar algunas de las aplicaciones actuales de las representaciones

Tiempo Frecuencia en el tema de procesamiento de voz, cules son
sus funciones y de qu manera aplican el procesamiento de voz.
JUSTIFICACIN
Los avances tecnolgicos en el mundo actual crecen de una manera

impresionante da a da, y las empresas de diferentes rubros se han
concentrado en realizar equipos con reconocimiento de voz. Es por eso que es
importante realizar un documento donde se estudien las bases, las funciones
matemticas y las aplicaciones que se le da a este tema. Tambin es
importante que generaciones futuras cuenten con un documento de consulta
donde se puedan informar del avance tecnolgico y los pasos que ha tomado
el reconocimiento de voz.
vi
MOTIVACIN
Se eligi este tema debido al gran inters de mi parte hacia todo lo nuevo que
nos presenta la tecnologa, en especial en el campo de lo acstico, incluyendo
voz y msica. Me interes porque es un tema actual, con aplicaciones en
diversos sistemas para diferentes fines, desde un telfono celular, hasta un
sistema de seguridad para casa o empresa. Un tema que da a da ir
evolucionando y que los interesados en l tendremos que actualizarnos
constantemente.
vii
INTRODUCCIN
En este tiempo en el que la carrera tecnolgica avanza cada vez a pasos

ms agigantados, es indispensable que las personas y profesionistas que
pertenecen al mundo de la tecnologa, se mantengan al da y actualizados con
los diferentes procesos y proyectos que se desarrollan da a da alrededor del
mundo.
Los procesos en los que el ser humano puede ser capaz de controlar
diferentes dispositivos mediante la voz han tomado un auge importante en los
ltimos aos, debido a que es muy extensa la lista de cosas que se pueden
hacer con tales desarrollos. Solo hay que observar con cuidado a nuestro
alrededor para saber que la industria del procesamiento de voz es cada vez
ms extensa, se pueden controlar los equipos de comunicacin mvil mediante
el uso de la voz, se le puede hacer dictados a las computadora para evitar
usar el teclado, se puede tener un sistema de seguridad en el hogar o en la
industria que se base en el reconocimiento de voz.
Todas estas aplicaciones se basan en un principio: poder procesar la

voz. Este proceso comienza desde el momento en que se captura los datos,
aplicar diferentes frmulas y aplicaciones matemticas para poder conocer los
datos importantes de la voz, tales como frecuencia, duracin, separacin de
palabras.
En esta investigacin se tomarn los temas acerca de la relacin tiempo

frecuencia y las herramientas matemticas que nos ayudan a obtener la
informacin necesaria acerca del sonido y su procesamiento.
1
Captulo 1. Conceptos de Procesamiento de Seales
CAPTULO 1. CONCEPTOS DE PROCESAMIENTO DE SEALES
1.1
SEALES
Los conceptos de seales [22], surgen de una gran variedad de eventos. La

obtencin, representacin e interpretacin de dichas seales juegan un papel
trascendental en la ciencia y tecnologa, incluyendo todas sus ramas como las
comunicaciones, la electrnica, la acstica, la sismologa, el diseo de circuitos
y equipos, la ingeniera biomdica y el procesamiento de voz entre otros.
Aunque las seales pueden representarse de diferentes maneras, en todos los
casos la informacin de una seal est contenida en un patrn de variaciones
que representan una forma determinada [5]. Por ejemplo, si tomamos el circuito
de la figura 1.1, las seales que obtendramos seran los patrones que tiene la
variacin en el tiempo de los voltajes Vs y Vc [1]; otro ejemplo podra ser la voz
humana, ya que aqu encontramos dos variables, la frecuencia y el tiempo, las
cuales se representaran de la forma ilustrada en la figura 1.2
Fig. 1.1 Circuito RC sencillo con voltaje en la fuente Vs y voltaje del capacitor Vc [4].
Fig. 1.2 Representacin grfica de una palabra en funcin del tiempo [2].
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ
1.1.1 Clasificacin de las seales [21]
Existen cuatro tipos de seales:
Analgicas
Digitales
Muestreadas
Cuantizadas
Clasificacin de seales de acuerdo a su duracin:
Causales
Anticausales
No causales
Continuas
Peridicas
Clasificacin de seales basadas en simetras
Simetra Par
Simetra Impar
Asimtrica
Clasificacin de seales basadas en Energa y Potencia
Seales de Energa
Seales de Potencia
Ejemplos de seales
Escaln unidad
Rampa
Pulso
Triangular
Sinc
Impulso
1.1.2 Seales Continuas y Discretas
En las seales continuas la variable independiente tiene un valor determinado

para cada momento del tiempo, por lo tanto se puede definir para una sucesin
continua de puntos de la variable independiente [22]. Por ejemplo, en la figura
1.3 se tiene un ejemplo tpico del tiempo de carga de un capacitor en un circuito
RC.
Fig. 1.3 Perfil tpico del tiempo de carga de un capacitor.
En las seales discretas la variable independiente solamente se encuentra

definida en tiempos discretos y, por lo tanto, para estas seales la variable
independiente solamente toma valores discretos. La densidad de poblacin con
respecto a cada una de las ciudades del pas y la seal de voz como funcin
del tiempo son ejemplos de seales discretas [22]. Otros ejemplos seran: el
ndice semanal de la Bolsa Mexicana de Valores, ingreso promedio de las
familias en una ciudad, el ndice de criminalidad por ciudad.
Para diferencias a las seales continuas de las discretas en una grfica, se

utiliza el smbolo t para denominar a la variable independiente continua y n para
denominar a la variable independiente discreta [21].
1.1.3 Sistemas Discretos
Un sistema es una transformacin aplicada a una seal de entrada x) para

obtener una seal de salida y [5]. A dicha transformacin se le denomina
funcin de transferencia, y habitualmente se representa mediante una T. Los
sistemas discretos son aquellos que trabajan con seales discretas. En la

figura se muestra el diagrama de bloques de este tipo de sistemas.
Fig. 1.4 Diagrama de Bloques. Sistema Discreto [22].
1.2 SISTEMAS LINEALES INVARIANTES EN EL TIEMPO (LIT)
Las propiedades bsicas de los sistemas de seales, como la linealidad y la

invariancia en el tiempo tienen una importancia muy grande en el anlisis de
las seales y sistemas, por dos razones [11]. La primera, demasiados procesos
fsicos poseen stas mismas propiedades, por lo que pueden modelarse como
sistemas lineales e invariantes en el tiempo (LIT). Adems es importante decir
que los sistemas LIT se pueden analizar con mucho detalle para proporcionar
el conocimiento de sus propiedades, as como un conjunto de variadas
herramientas que forman el ncleo del anlisis de seales y sistemas [12].
1.2.1 LIT DISCRETOS (SUMA DE CONVOLUCIN)
La idea de visualizar cmo el impulso unitario discreto se puede utilizar para

construir cualquier seal discreta consiste en pensar en una seal discreta
como una sucesin de impulsos individuales.
Suponiendo un sistema LIT cualquiera con las propiedades citadas, como se

muestra en la figura 1.4, se cumple la expresin [22].
Ec. 1.1
Por la propiedad de la linealidad se obtiene:
Ec. 1.2
Y ahora considerando
=
respuesta al impulso unitario
Se puede representar la funcin de transferencia del sistema como:
Ec. 1.3
La funcin de transferencia de un sistema LIT podr ser formulado mediante su

respuesta el impulso, representada por h(n). Y la operacin mostrada en la
ecuacin, que relaciona dicha respuesta al impulso y la entrada al sistema, se
le atribuye el nombre de suma de convolucin [22].
1.2.2 LIT CONTINUOS (INTEGRAL DE CONVOLUCIN)
Como se vio en el sistema discreto, la clave para el desarrollo de la suma de

convolucin fue la propiedad de representar matemticamente una seal como
la superposicin de funciones impulso unitario escaladas y desplazadas. En el
caso de los LIT continuos no existe una secuencia discreta de valores de
entrada [23]. Sin embargo, al pensar en el impulso unitario como la idealizacin
de un pulso tan corto que su duracin no tiene consecuencias en un sistema
fsico real, se puede realizar y desarrollar una representacin para seales
continuas arbitrarias en trminos de stos pulsos idealizados con una duracin
pequea que tiende a desaparecer [12].
Para esta seccin tomamos como base una seal & ' que representa a la
suma de versiones escaladas y desplazadas de la seal pulso bsico
lo tanto la respuesta & '
, por
de un sistema lineal a esta seal ser la
superposicin de las respuestas a las versiones escaladas y desplazadas de

)
[22]. Se define a *
' .
' como la respuesta de un sistema LIT a la entrada
Entonces, suponiendo un sistema lineal de tiempo continuo, vemos que:
& ' =
'
Ec. 1.4
Dado que el pulso
' corresponde a un impulso unitario desplazado
conforme 0, la respuesta *
' a este pulso de entrada se convierte en la
respuesta a un impulso en el lmite. Por lo tanto, se hace , ' denote la

respuesta en el tiempo t a un impulso unitario
-, entonces
' = lim
' - localizado en el tiempo
'
Ec. 1.5
[22] Conforme 0, la sumatoria del lado de derecho se convierte en una

integral, por tanto,
' =0
- , ' 1-
Ec. 1.6
Quitando el subndice y definiendo la respuesta al impulso unitario h(t) como

' = . '
Ec. 1.7
Es decir, h(t) es la respuesta a
' . En este caso la ecuacin se vuelve:
' =0
- ' - 1Ec. 1.8
A sta ecuacin se le conoce como integral de convolucin, y corresponde a

la representacin de un sistema LIT continuo en trminos de su respuesta a un
impulso unitario [5]. La convolucin de dos seales x(t) y h(t) se representa
simblicamente como
' =
' '
Ec. 1.9
1.2.3 Propiedades de los sistemas LIT
Los sistemas LIT tiene varias propiedades que no poseen otros sistemas, en
esta seccin se explorarn algunas de las ms importantes y bsicas de estas
propiedades, las cuales se separan en discretas y continuas para poder
observar cada uno de los tipos de LIT por separado [11].
Propiedad Conmutativa
Una propiedad bsica de la convolucin tanto continua como discreta,
consiste en que es una operacin conmutativa.
10
Caso discreto:
Ec. 1.10
Caso continuo:
' ' = '
' =0 -
' - 1-
Ec. 1.11
Propiedad Distributiva
Otra propiedad bsica de la convolucin es la propiedad distributiva. La
convolucin se distribuye a travs de la adicin [21].
Caso Discreto:
2
+ 4
Ec. 1.12
Caso Continuo:
' 2 ' + 4 '
' 2 ' +
' 4 '
Ec. 1.13
11
Propiedad asociativa
Otra propiedad importante y til de la convolucin es la asociativa [22].
Caso Discreto:
2
' 2 '
4 '
Ec. 1.14
Caso Continuo:
' 2 ' 4 '
Ec. 1.15
1.3 LA TRANSFORMADA CONTINUA DE FOURIER
La representacin de seales no peridicas se puede lograr mediante una

combinacin lineal de exponenciales complejas [12]. Mientras que para las
seales peridicas las exponenciales complejas que las constituyen estn
relacionadas
armnicamente,
para
las
seales
aperidicas
estn
infinitesimalmente cercanas en frecuencia, y la representacin en trminos de

una combinacin lineal adopta la forma de una integral, en lugar de una suma.
El espectro de coeficientes resultante en esta representacin se conoce como
transformada de Fourier, y la integral de sntesis por s misma, la cual usa
estos coeficientes para representar la seal como una combinacin lineal de
exponenciales complejas, se llama la transformada inversa de Fourier [11].
12
Para tener una idea sobre le representacin de la transformada de Fourier,

comenzaremos por definir la representacin de la transformada de Fourier de
una onda peridica cuadrada continua sobre un periodo de tiempo [5].
1, |'| <
' =5
0,
< |'| <
Para esta forma, los coeficientes de la serie de Fourier ; para esta onda
cuadrada son
; =
2<=
>.
>?
Ec. 1.16
donde >. =
4@
A
. Una forma alternativa de representar la ecuacin 1.16 es en
forma de muestras de una funcin envolvente, resultando
; =
2<= B
B
CD
Ec. 1.17
Esto es, tomando a B como una variable continua, la funcin (2senB
/B
representa la envolvente de ; , y los coeficientes ; son muestras igualmente

espaciadas de esta envolvente. Para un valor fijo de
la envolvente de ; es
13
independiente de T [22]. Se deduce que a medida que T se incrementa, o a

medida que la frecuencia fundamental B. = 2F/ disminuye, la envolvente se
muestrea con un espaciamiento cada vez ms estrecho. Por otro lado,

conforme T incrementa, la onda cuadrada peridica original se aproxima a un
pulso rectangular. As mismo, los coeficientes de la serie de Fourier,
multiplicados por T, resultan en muestras de la envolvente con un
espaciamiento cada vez ms estrecho; de alguna manera el conjunto de
coeficientes de la serie de Fourier se aproxima a la funcin de la envolvente a
medida que
[11].
Este ejemplo muestra la idea bsica que permiti a Fourier el desarrollo de una
representacin para seales aperidicas. En forma especfica, se piensa en
una seal aperidica como el lmite de una seal peridica cuando el periodo
se hace excesivamente grande, y se examina el comportamiento limitante de la
representacin de la serie de Fourier para esta seal [23]. Ahora se considera
una seal x(t) con duracin finita, para un nmero de
2,
' = 0 <H |'| >
2,
como se ilustra en la imagen 1.5(a). A partir de esta seal aperidica podemos

construir una seal peridica & ' para la cual x(t) sea un periodo, como se
muestra en la figura 1.5(b). Como se ha escogido el periodo T de tal manera
que sea grande, & ' es igual x(t) sobre un intervalo largo, y conforme
& ' es igual x(t) para cualquier valor finito de t [22].
14
Fig. 1.5 (a) Seal aperidica x(t) (b) Seal peridica & ' construida para que sea igual a x(t)
en un periodo [22].
Se examina ahora el efecto de esto sobre la representacin en serie de Fourier

de & ' , sobre el intervalo /2 K ' K /2 tenemos
& '
; =L
CD )
Ec.1.18
A
4
0& ' =
A
4
L CD )
1'
Ec. 1.19
donde B.
2F/ [11]. Ya que & '
' para |'| 9 /2, y tambin, ya que
x(t)=0 fuera de dicho intervalo, la ecuacin 1.19 se puede escribir como
15
; =
A/4
A/4
' =
L CD )
1'
' =
L CD )
1'
Ec. 1.20
Por lo tanto, se define la envolvente M NB de ; como
M NB = 0
' =
L CD )
1'
Ec. 1.21
Tenemos para los coeficientes ; ,
; =
M N B.
Ec. 1.22
Combinando las ecuaciones 1.22 y 1.18 se puede expresar en trminos de

M NB como
16
& ' =
M N B. = L
CD )
Ec. 1.23
O de manera equivalente, ya que
& '
4@
A
1
2F
B. ,
M N B. = L
CD )
B.
Ec. 1.24
Cuando
, & ' se aproxima a
' y en consecuencia, la ecuacin 1.24 en
el lmite se convierte en una representacin de

conforme
' [22]. Adems, B. 0
, y el miembro derecho de la ecuacin 1.24 se vuelve una
integral. Esto se puede ver al considerar la interpretacin grfica de la ecuacin

que se muestra en la figura 1.6.
Fig. 1.6 Representacin grfica de la ecuacin 1.24 [22].
17
Cada trmino en la sumatoria en el miembro derecho es el rea de un

rectngulo de altura M N B. = L
CD )
y ancho B. . Conforme B. 0, la sumatoria
converge a la integral de M NB = LC) . Por lo tanto, como & '
' conforme
, se puede ver que las ecuaciones 1.24 y 1.21 se convierten
respectivamente [5].
' =
1
0 M NB = LC) 1B
2F
Ec. 1.25
M NB = 0
' =
LC)
1'
Ec. 1.26
Las ecuaciones 1.25 y 1.26 son conocidas como el par de transformadas de
Fourier cuya funcin M NB se conocer como transformada de Fourier o integral

de Fourier de x(t), y la ecuacin 1.25 como la ecuacin de la transformada
inversa de Fourier [12]. La ecuacin, en las seales aperidicas, representan la
seal como una combinacin lineal de exponenciales complejas. La
transformada M NB de una seal aperidica
el espectro de
describir a
'
' se conoce comnmente como
' , ya que nos proporciona la informacin necesaria para
como una combinacin lineal de seales senoidales a
diferentes frecuencias.
18
1.3.2 LA TRANSFORMADA DE FOURIER PARA SEALES PERIDICAS
En la seccin anterior se desarroll la representacin de la transformada de

Fourier, ah se enfoc sobre todo en las seales aperidicas, pero se pudo
tambin desarrollar las representaciones de la transformada de Fourier para
seales peridicas. Se puede construir de forma directa la transformada de
Fourier de una seal peridica a partir de su representacin en serie de
Fourier. La transformada resultante consistir en un tren de impulsos en el
dominio de la frecuencia, con las reas de los impulsos proporcionales a los
coeficientes de la serie de Fourier [22].
' con transformada de Fourier M NB que consiste
Se considera una seal
en un solo impulso de rea 2F en B = B. ; esto es,

M NB = 2F
B B.
Ec. 1.27
Para determinar la seal
' de la cual sta es la transformada de Fourier
podemos aplicar la relacin de la transformada inversa, ecuacin 1.25, para

obtener
' =
1
0 2F
2F
B B. = LC) 1B
Ec 1.28
19
De manera ms general, si M NB es de la forma de una combinacin lineal de

impulsos igualmente espaciados en frecuencia, esto sera
M NB =
2F;
B B.
Ec. 1.29
Entonces la aplicacin de la ecuacin 1.25 nos da
' =
; =L
CD )
Ec. 1.30
Vemos que la ecuacin 1.30 corresponde exactamente a la representacin de

la serie de Fourier de una seal peridica. Por lo tanto, la transformada de
Fourier de una seal peridica con coeficientes de la serie de Fourier ;
se
pueden interpretar como un tren de impulsos que ocurren a las frecuencias

relacionadas armnicamente y para las cuales el rea del impulso en la kesima
frecuencia armnica
Fourier ; [11].
B. es 2F veces el k-simo coeficiente de la serie de
1.3.3 PROPIEDADES DE LA TRANSFORMADA CONTINUA DE FOURIER
En esta seccin se consideran varias propiedades de la transformada de

Fourier. Las propiedades de la transformada de Fourier proporcionan un gran
conocimiento acerca de la transformada y de la relacin que existe entre las
20
descripciones de una seal en los dominios del tiempo y de la frecuencia [12].

Adems, la mayora de estas propiedades son tiles para reducir la
complejidad en la evaluacin de las transformadas o de las transformadas
inversas de Fourier. Existe mucha relacin entre las representaciones de la
serie de Fourier y de la transformada de Fourier de una seal peridica, por lo
tanto, haciendo uso de esta relacin es posible trasladar muchas de las
propiedades de las transformadas de Fourier hacia las propiedades
correspondientes de las series de Fourier [23].
Durante el anlisis de las propiedades, se remitir con frecuencia a funciones

de tiempo y sus transformadas de Fourier, por lo cual se usar una notacin
sinttica para indicar la relacin entre una seal y su transformada. Una seal
'
y su transformada de Fourier M NB
estn relacionadas mediante las
ecuaciones de sntesis (Ec. 1.25) y de anlisis (Ec. 1.26) de la transformada de

Fourier [11].
' =
1
0 M NB = LC) 1B
2F
Ec. 1.31
M NB = 0
' =
LC)
1'
Ec. 1.32
Tambin se podr aludir a M NB mediante la notacin O| ' | y a
notacin de O
2 |M
NB |. Tambin se referir a
' con la
' y M NB como un par de
transformadas de Fourier mediante la notacin:
21

P
' M NB
Linealidad [22]
Si
P
' M NB
y
P
' R NB
entonces
P
; ' + S ' ;M NB + SR NB
Ec. 1.33
Desplazamiento del tiempo [11]
Si
P
' M NB
Entonces
P
' '. =
LC)D
M NB
Ec. 1.34
Para establecer esta propiedad se considera la ecuacin 1.31:

' =
1
0 M NB = LC) 1B
2F
Reemplazando t con ' '. en esta ecuacin, se obtiene:

' '. =
1
0 M NB = LC
2F
) )D
1B
22
1
0
2F
LC)D
M NB = LC) 1B
Se reconoce en sta como la ecuacin de sntesis para

concluye que
' '.
==
LC)D
' '. , se
M NB
Una consecuencia de la propiedad de desplazamiento es que una seal

que es desplazada en tiempo, no tendra alterada la magnitud de su
transformada de Fourier [22]. Por lo tanto, un efecto de un
desplazamiento en el tiempo de una seal es introducir en su
transformada un desplazamiento de fase, esto es, B'. , la cual es una

funcin de B.
Diferenciacin e integracin
Sea
'
una seal con una transformada de Fourier M NB . [23]
Entonces, al diferenciar ambos miembros de la ecuacin de sntesis (Ec.

1.31) de la transformada de Fourier, se obtiene:
1 '
1
=
0 NBM NB = LC) 1B
1'
2F
Por tanto
23
1 ' P
NBM NB
1'
Ec. 1.35
sta es una propiedad de particular importancia, ya que reemplaza la

operacin de diferenciacin en el dominio del tiempo con la de
multiplicacin por NB en el dominio de la frecuencia.
Escalamiento de tiempo y frecuencia [22]
Si
P
' M NB
Entonces
P
;'
1
NB
M
|;|
;
Ec. 1.36
Donde ; es una constante real. Esta propiedad se obtiene directamente

de la definicin de la transformada de Fourier. Especficamente,
OT ;' U = 0
;' =
LC)
1'
Usando la sustitucin de variables - = ;', se obtiene:
24
OT ;' U =
Y 1 0
W ;
X 1
W ; 0
V
- =
- =
C
LZ \,
[ 1-, ;
C
LZ \,
[ 1-, ;
>0
>0
La cual corresponde a la ecuacin 1.36. Entonces, adems del factor de

amplitud de 1/|;|, el escalamiento lineal en tiempo por un factor a
corresponde a un escalamiento lineal en frecuencia por un factor 1/;, y
viceversa.
Tambin, considerando que ; = 1, en la ecuacin 1.36 se tiene:
P
' M NB
Ec. 1.37
Esto es, al invertir una seal en el tiempo tambin se invierte su

transformada de Fourier.
Un ejemplo de la ecuacin 1.36 es el efecto en el contenido de la

frecuencia que resulta cuando una cinta de audio se graba a una
velocidad y se reproduce a diferente velocidad. Si la velocidad de
reproduccin es mayor que la velocidad de grabacin, corresponde a
una compresin en tiempo (; > 1), entonces el espectro se expande en
frecuencia y el efecto auditivo consiste en que las frecuencias de la
reproduccin son ms altas [12]. De manera contraria, la seal tendr
25
frecuencias ms bajas si la velocidad de reproduccin es ms lenta que

la velocidad de grabacin (0 < ;).
La propiedad de escalamiento es un ejemplo de la relacin inversa entre

el tiempo y la frecuencia. Por ejemplo, conforme se incrementa el
periodo de una seal senoidal, disminuimos su frecuencia [11].
La relacin inversa entre el dominio del tiempo y de la frecuencia es de

gran importancia dentro de una amplia variedad de contextos de seales
y sistemas, incluyendo el filtrado y diseo de filtros.
1.4 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO
En las secciones anteriores se pudo ver que existen muchas similitudes y un

marcado paralelismo en el anlisis de las seales continuas y discretas, pero
tambin se observ que existen diferencias importantes, por ejemplo, la
representacin en serie de Fourier de una seal peridica discreta es una serie
finita, opuesta a la representacin en serie infinita requerida para las seales
peridicas continuas [22].
Existen diferencias que son correspondientes en las transformadas de Fourier

continua y de tiempo discreto.
26
En la seccin 1.3.1 se estableci que los coeficientes de la serie de Fourier

para una onda cuadrada peridica continua se pueden considerar como las
muestras de una funcin envolvente y que, conforme el periodo de la onda
cuadrada se incrementa, estas muestras llegan a estar cada vez ms cercanas
unas de otras [11]. Esta propiedad sugiri la representacin para una seal
aperidica
' construyendo primero una seal peridica ] ' que igualara a
' sobre un periodo. Entonces conforme este periodo se aproximaba a infinito
] ' era igual a
' sobre intervalos de tiempo cada vez ms grandes, y la
representacin en serie de Fourier para ] ' se aproximaba a la representacin

de la transformada de Fourier de
' [22]. Ahora se aplicar un procedimiento
anlogo a las seales discretas para desarrollar la representacin de la

transformada de Fourier para secuencias aperidicas discretas.
Se considera una secuencia general
^ _ que tiene duracin finita. Esto es,
para algunos enteros `2 y `4 , ^ _ = 0 fuera del intervalo `2
`4 . En la
figura (a) se muestra una seal de este tipo [23]. A partir de esta seal
aperidica podemos construir una secuencia peridica ]
para la cual ^ _
sea un periodo, como se ilustra en la figura (b). Cuando se hace que el periodo
sea ms grande, ]
conforme ` , ]
es idntica a
^ _ sobre un intervalo ms grande, y
para cualquier valor finito de n.
27
Fig. 1.7 (a) Seal x[n] de duracin finita. (b) seal peridica ]
construida para que sea
igualada a x[n] en un periodo [22].
Se examina la representacin en serie de Fourier de ]

]
; =
L Z
, se tiene:
4@
\b
a
Ec. 1.38
; =
1
`
L Z
4@
\b
a
Ec. 1.39
Puesto que
sobre un periodo que incluye el intervalo `2 K
K `4 ,
es conveniente seleccionar un intervalo de la sumatoria en la ecuacin 1.39

que incluya este intervalo, de manera que ]
pueda reemplazarse por x[n] en
la sumatoria [11]. Por lo tanto,
1
`
ac
b
ad
L Z
4@
\b
a
1
`
L Z
4@
\b
a
28

Ec. 1.40
donde en la segunda igualdad nos hemos valido del hecho de que x[n] es cero
fuera del intervalo `2
`4 . Definiendo la funcin
Me= LC f =
LCb
Ec. 1.41
Se puede observar que los coeficientes ; son proporcionales a las muestras
de M = LC , es decir,
; =
1
M =L
`
CD
Ec. 1.42
Donde B. = 2F/` es el espaciamiento de las muestras en el dominio de la

frecuencia [22]. Al combinar las ecuaciones 1.38 y 1.42 se obtiene
1
M =L
`
CD
=L
CD b
Ec. 1.43
Ya que B. = 2F/` o de manera equivalente, 1/N = B. /2F, la ecuacin 1.43 se

puede reescribir como
1
2F
M =L
CD
=L
CD b
B.
Ec. 1.44
29
Conforme N aumenta, B. disminuye, y conforme ` la ecuacin 1.44 se

vuelve una integral. Para ver esto ms claramente, se considera que se
representa M = LC = LCb como el trazo de la figura 1.8. De la ecuacin 1.41 se
puede ver que M = LC es peridica en B con periodo 2F y tambin lo es = LCb .
Entonces el producto M = LC = LCb tambin ser peridico [12].
Fig. 1.8 Representacin grfica de la ecuacin 1.44 [22].
Como hemos representado en la figura, cada trmino en la sumatoria de la

ecuacin 1.44 representa el rea de un rectngulo de altura M = L
CD
= LCD b y
ancho B. . A medida que B. 0, la sumatoria se vuelve una integral. Debido a

que la sumatoria se realiza sobre N intervalos consecutivos de ancho
B.
2F/`, el intervalo total de integracin siempre tendr un ancho de 2F [23].
Por lo tanto, medida que ` , ]
, y la ecuacin 1.44 se convierte en
1
0 M = LC = LCb 1B
2F 4@
30
donde, debido a que M = LC = LCb es peridica con periodo 2F, el intervalo de
integracin se puede tomar como cualquier intervalo de longitud 2F [12] . Se
tiene as el siguiente par de ecuaciones:

=
1
0 M = LC = LCb 1B
2F 4@
Ec. 1.45
Me= LC f =
LCb
Ec. 1.46
Las ecuaciones (1.45) y (1.46) son la contraparte discreta de las ecuaciones de

(1.25) y (1.26). La funcin M = LC so conoce como la transformada de Fourier
de tiempo discreto y el par de ecuaciones se conocen como el par de

transformada de Fourier. La ecuacin 1.45 es la ecuacin de sntesis y la
ecuacin 1.46 es la ecuacin de anlisis [22]. La ecuacin de sntesis es una
representacin de x[n] como una combinacin lineal de exponenciales
complejas muy cercanas en frecuencia y con amplitudes Me= LC f
gC
4@
. Es por
esto, igual que en el caso continuo, que regularmente se hace referencia a la

transformada Me= LC f como el espectro de x[n], ya que proporciona la
informacin acerca de cmo x[n] est compuesta de exponenciales complejas

a frecuencias diferentes.
31
1.4.2 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO PARA

SEALES PERIDICAS.
Como en el caso continuo [11], las seales peridicas discretas se pueden

incorporar dentro del marco de referencia de la transformada de Fourier de
tiempo discreto cuando se interpreta la transformada de una seal peridica
como un tren de pulsos en el domino de la frecuencia. Para deducir la forma de
esta representacin, se considera la seal
= = LCD b
Ec. 1.47
En el caso continuo se vio que la transformada de Fourier de = LCD ) se puede
interpretar como un impulso en B = B. . Por lo tanto, se espera que resulte el
mismo tipo de transformada para la seal discreta de la ecuacin 1.47. Sin

embargo, la transformada de Fourier de tiempo discreto debe ser peridica en
B con periodo de 2F [22]. Esto nos seala entonces que la transformada de

Fourier de x[n] en la ecuacin 1.47 debe tener impulsos en B. , B. 2F,
B. 4F y as sucesivamente.
Esto nos da la transformada de Fourier de x[n] como un tren de impulsos que

se muestra en la figura 1.9
Me= LC f =
2F B B. 2Fj
Ec. 1.48
32
= = LCD b [22].
Fig. 1.9Transformada de Fourier de
Se observa que cualquier intervalo de longitud 2F incluye exactamente un

impulso en la sumatoria expresada en la ecuacin 1.48.
1.4.3 PROPIEDADES DE LA TRANSFORMADA DE FOURIER DE TIEMPO

DISCRETO
Justo como ocurre con la transformada continua de Fourier, existen una gran
variedad de propiedades de la transformada de Fourier de tiempo discreto, esto
proporciona un mayor conocimiento de la transformada, lo cual es muy til
conocer para reducir la complejidad de la evaluacin de las transformadas y las
transformadas inversas [23]. Es importante conocer que existe una estrecha
relacin entre la serie de Fourier y la transformada de Fourier, por lo cual
muchas propiedades de la transformada se derivan de las propiedades
correspondientes de la serie de Fourier de tiempo discreto.
Es conveniente utilizar una notacin especfica para indicar el par de una seal
y su transformada. Esto es,
Me= LC f
O
OT
2
lM = LC m
33

P
M = LC
Periodicidad de la transformada de Fourier de tiempo discreto
Como se analiz anteriormente, la transformada de Fourier de tiempo

discreto siempre es peridica en B con un periodo 2F; es decir,
Me= L
Cn4@
f = M = LC
Ec. 1.49
Esta expresin contrasta con la transformada continua de Fourier, la

cual en general es no peridica [11].
Linealidad de la transformada de Fourier [12]
Si
P
M2 = LC
M4 = LC
Y
P
Entonces
;
+S
;M2 e= LC f + SM4 = LC
Ec. 1.50
Desplazamiento de tiempo y desplazamiento de frecuencia [22]

Si
P
M = LC
Entonces
34
LCbD
Me= LC f
Ec. 1.51
Y
= LCD b
M =L
C CD
Ec. 1.52
La ecuacin 1.51 se puede obtener mediante la sustitucin directa de
en la ecuacin de anlisis (1.46), mientras que la ecuacin
1.52 se deduce al sustituir M = L
C CD
en la ecuacin de sntesis (1.45).
35
Captulo 2. Caracterizacin en tiempo y frecuencia
CAPTULO 2. CARACTERIZACIN EN TIEMPO Y FRECUENCIA
Los campos de aplicacin de las representaciones Tiempo Frecuencia son

cada vez ms amplios, pues se ha comprobado que mejoran los resultados de
los mtodos espectrales y temporales clsicos al ser capaces de reflejar
cambios en frecuencia con respecto al tiempo (transitorio espectrales), cosa
que en un anlisis espectral clsico no se puede detectar, por lo que la
clasificacin o deteccin de determinadas propiedades de la seal analizada se
mejora [6]. Anlogamente, los mtodos basados en caractersticas temporales
no consiguen detectar caractersticas esenciales de la seal que son las que
muestran con certeza su naturaleza. Por ello, un uso combinado de ambos
dominios resulta en el aprovechamiento de caractersticas tiles presentes en
ambos dominios para as realizar diagnsticos ms fiables [10]. Inicialmente se
aplic en la deteccin por radar y reconocimiento del habla, pero hoy en da se
aplica en casi todos los campos de tratamiento digital de seales.
2.1 CONCEPTO DE TIEMPO - FRECUENCIA
Especificar la representacin en dominio del tiempo o de la frecuencia a una

seal cualquiera, no es necesariamente el primer paso de un anlisis tiempo
frecuencia. De hecho, las limitaciones de estas representaciones pueden
obstaculizar en gran medida nuestra comprensin de las propiedades de la
seal [23]. En una seal musical, el odo humano la interpreta como una serie
de notas, una serie de tomos de sonido apareciendo a determinados
36
tiempos, cada nota tiene una duracin finita y determinada altura (la frecuencia
del tono). Si la seal contiene una nota, por ejemplo LA, una representacin de
Fourier de la seal mostrar un pico en la frecuencia correspondiente, sin
ninguna indicacin de la duracin. La msica generalmente se representa en
una partitura. Y se sabe que la relacin tiempo frecuencia es precisamente la
informacin que est codificada en la notacin musical (Ver Fig. 2.1). Por ello,
se puede decir que la notacin musical es el prototipo de la representacin
tiempo frecuencia de las seales [30].
Fig. 2.1. Partitura de un arpegio [23].
(a)
(b)
Fig. 2.2. Seal (a) y Espectro de Fourier (b) del arpegio [23].
37
Fig. 2.3. Representacin Tiempo Frecuencia del arpegio [23].
Cuando la seal mostrada en la Fig. 2.1 es tocada con algn instrumento como
una flauta, es difcil de detectar su estructura matemtica De hecho, la
representacin grfica de la seal y su espectro de Fourier (Fig. 2.2) no son
capaces de revelar dicha estructura [7]. Por el contrario, el hecho de que es un
arpegio es mucho ms claro en una representacin tiempo frecuencia como
la representada en la Fig. 2.3, en la cual el tiempo y la frecuencia se
representan simultneamente. Se puede ver claramente que la representacin
tiempo frecuencia de la seal se localiza alrededor de cierto nmero de
puntos, y es posible asociar dichos puntos con las notas individuales (o sus
armnicos). Tambin se puede seguir la evolucin de la frecuencia
fundamental de la seal [23]. En la Fig. 2.3 se observa que la seal sigue una
curva que corresponde con la partitura de la Fig. 2.1.
En este captulo se hablar de algunos mtodos matemticos usados en la

representacin tiempo frecuencia de seales, tambin es necesario
mencionar alguno de las caractersticas principales de las representaciones
tiempo frecuencia,
38
No existe un solo mtodo para la representacin tiempo frecuencia:

Existen diferentes maneras de describir el contenido tiempo
frecuencia de una seal.
Para una determinada representacin tiempo frecuencia, es imposible

lograr una localizacin tiempo frecuencia perfecta. Debido al principio
de incertidumbre de Heisenberg. Esto significa que siempre se debe
suponer un pequeo error entre la localizacin del tiempo y la
localizacin de la frecuencia [8].
2.2 TRANSFORMADA DE FOURIER DE TIEMPO CORTO (STFT)
Como primera aproximacin a las transformadas tiempo frecuencia, una

posibilidad consiste en analizar la seal con transformadas de Fourier de
tiempo corto. As, tomando pequeas ventanas de la seal se apreciar que la
distribucin espectral de cada una de ellas vara con el tiempo, pudiendo
conocer con ms precisin la evolucin de las componentes espectrales [15].
La transformada corta de Fourier ha sido muy utilizada en diferentes

aplicaciones debido a su sencillez de implementacin, pero dada su baja
resolucin espectral y temporal se tiende a dejar de utilizarla a favor de otros
mtodos. Es empleada frecuentemente para el anlisis de voz, y en el campo
de las seales biomdicas para deteccin de FV [10].
Si para una seal de larga duracin se toman pequeos tramos de ella

realizando un enventanado, y se calcula la transformada de Fourier de ese
39
tramo, podremos conocer las componentes frecuenciales de cada tramo en una

ventana de tiempo pequea. As, analizando cada transformada de Fourier se
observa el cambio de dichas componentes frecuenciales [18]. La transformada
de Fourier de tiempo corto se define como:
Ec. 2.1
La eleccin del tamao de la ventana
es crtica a la hora de obtener buena
resolucin. Si lo que se desea es obtener una resolucin grande en el dominio

temporal elegiremos una ventana de poca longitud, en cambio, la distribucin
espectral estar muy dispersa y no podremos conocer con exactitud sus
componentes. Por el contrario, la eleccin de una ventana grande nos mostrar
con ms precisin las componentes en frecuencia, pero se perder la idea del
momento en que se produjeron cada una de ellas [30].
La ventana de anlisis que se haya escogido para trabajar suprime a toda la

seal fuera de sta, el resultado es un espectro local alrededor de t.
Se toma como ejemplo la palabra GABOR, la cual se muestra su grfica de

tiempo y su densidad espectral de energa en la Fig. 2.4.
40
Fig 2.4. Seal de voz correspondiente a la palabra GABOR. Seal en el tiempo y su densidad
espectral de energa [6].
En la Fig. 2.4 se puede observar que existen componentes principales a

diferentes frecuencias, pero no se puede especificar en que momento
ocurrieron [6].
Despus de utilizar la Transformada de Fourier de Tiempo Corto, se grafica la

magnitud al cuadrado utilizando una ventana de anlisis de Hamming de 85
puntos. El resultado se muestra en la Fig. 2.5.
41
Fig. 2.5. Seal de voz analizada en el plano tiempo frecuencia [6].
En la Fig. 2.5. se puede observar un primer patrn correspondiente a la slaba

GA, un segundo patrn correspondiente a la slaba BOR y armnicas de
menor amplitud.
Los principales campos de aplicacin dentro del procesado de seales han sido
la identificacin de sistemas, estimacin espectral, deteccin de seales,
estimacin de parmetros y anlisis del habla [6].
2.3 DISTRIBUCIN WIGNER VILLE
La distribucin Wigner - Ville (WVD) data de 1948 y es histricamente la

primera tcnica que busca obtener informacin sobre una seal, consiguiendo
simultneamente una localizacin temporal y frecuencial. Fue propuesta por
J. Ville como una densidad temporal frecuencial. Cuando se la aplica a
42
oscilaciones
puras,
comportamiento
proporciona
se
mantiene
una
tambin
localizacin
a
ptima.
seales
que
El
son
buen
ciertas
transformaciones simples de una nica oscilacin pura. Pero aparecen

problemas al analizar seales ms complejas, por ejemplo la suma de seales
simples. En estos casos el resultado no es la suma de las WVD de aqullas,
sino que aparecen trminos de interferencia. En definitiva, la WVD no es
lineal [14].
Dada una seal f, su transformada Wigner Ville est definida como
"
Ec. 2.2.
siendo x(t) la seal analtica asociada a la seal original. Es decir:
+ $%
Ec. 2.3
siendo H( f(t) ) la transformada de Hilbert de f(t).
Si denotamos:
Ec. 2.4
43
a esta funciTrn se le denomina t-autocorrelacin. Siendo su interpretacin

similar a la autocorrelacin pero dando informacin localizada en el instante t
[13].
Como la transformada de Fourier de la autocorrelacin proporciona el mdulo

de la transformada de Fourier de la seal, la distribucin de Wigner Ville se
interpresta como el mdulo de la contribucin para una frecuencia ' en un
instante t de la seal [7].
La sugerencia original de Ville fue considerar la transformada Wigner Ville de

una seal como una probabilidad de medida en el plano tiempo frecuencia.
Esta propuesta demostr ser inadecuada, debido a los valores negativos que
tiene la representacin. Sin embargo, la transformada de Wigner Ville tiene
algunas propiedades interesantes. Entre ellas, las propiedades de localizacin
son consideradas de gran importancia [14]. Ellas expresan que la transformada
se adapta de una manera excelente para algunas clases especficas de
seales; por ejemplo, se puede decir que la Transformada es Fourier es ptima
para sinos y cosenos, tomando en cuenta que toda la energa de la
transformada de Fourier en dichas funciones, est localizada en un solo punto
[7]. Teniendo en cuenta que una localizacin optima para diferentes clases de
seales es una de las metas ms importantes en el anlisis de tiempo
frecuencia, tenemos que:
La transformada de Wigner Ville tiene una localizacin ptima para

seales Dirac.
44
La transformada de Wigner Ville tiene una localizacin ptima en el

dominio de la frecuencia en las ondas monocromticas puras y en las
seales chirp lineales. (Fig. 2.6)
Fig. 2.6. Distribucin Wigner Ville de una seal chirp linear: casi una perfecta localizacin en
el plano tiempo frecuencia [6].
Conservacin de la Energa [13]: Integrando la distribucin Wigner

Ville en todo el plano tiempo frecuencia, se obtiene la energa de x:
() =
Ec. 2.5
Propiedad Marginal: La densidad del expectro de energa y a potencia

instantnea pueden obtenerse como distribuciones marginales de
).
45
#
#
#
#
= |+
= |
Traduccin de covarianza [14]: La distribucin de Wigner Ville es

covariante en tiempo y frecuencia.
"/
,,
Compatibilidad con filtraciones: Si una seal y es la convolucin de x y h,

la WVD de y es la convolucin del tiempo entre la WVD de h y la WVD
de x.
#
#
#
#
0,
0,
Compatibilidad con modulaciones: Si y es la modulacin de x de una

funcin m, la WVD de y es la convolucin de las frecuencias entre la
WVD de x y la WVD de m.
=2
#
#
, 4
,4
46
La distribucin Wigner Ville es bastante efectiva en la descomposicin tiempo

frecuencia de seales no estacionarias; su resolucin es mayor comparada a la
resolucin entregada por tcnicas lineales como la STFT, lo que permite una
mejor localizacin de la energa en el espacio tiempo frecuencia [13].
2.4 TRANSFORMADA DE GABOR
Una clase de representaciones tiempo frecuencia ampliamente difundida en

el mbito del procesamiento de seales se basa en el empleo de ventanas
temporales, esto es de funciones suaves y bien localizadas en un intervalo.
La ventana g(t) enmarca una porcin de la seal y permite aplicar localmente la

Transformada de Fourier. De este modo, se releva la informacin en frecuencia
localizada temporalmente en el dominio efectivo de la ventana.
Desplazando temporlamente la ventana se cubre el dominio de la seal

obtenindose la completa informacin tiempo frecuencia de la misma [6]:
05 , 6 =
Ec. 2.6.
Asumiendo que la ventana real g(t) est bien localizada en un intervalo

centrado en t=0, de longitud y que su transformada g(w) est tambin
localizada en una banda centrada en w=0, de ancho 6, las ventanas
desplazadas y moduladas 7
son funciones elementales bien
47
localizadas en el domunio conjunto tiempo frecuencia. Cada funcin

elemental se localiza en el rectngulo centrdo en el punto
, 6 de dimensin
6.
Por tanto el conjunto de valores :05 , 6 ; nos da un completo mapa en el

dominio tiempo frecuencia que despliega la informacin de la seal. Ms an,
sta puede recuperarse con la frmula de inversin [12]:
1
2=
05 , '
>
'
Ec. 2.7.
La misma sintetiza la seal como la superposicin integral de las funciones

elementales 7
>
. El mapeo sobre dominio tiempo frecuencia, bajo
las condiciones referidas, se conoce como la transformada de Gabor y

representa una atractiva generalizacin de la transformada de Fourier.
Esta transformada se puede reformular considerando ahora el par de ventanas

moduladas reales 7
cos '
y7
sin ' . Estos pares de ventanas
moduladas actan como filtros pasabanda, con definicin de fase. De tal modo
la Transformada de Gabor puede entenderse como un tratamiento localizado
de la seal mediante filtros pasabanda deslizantes, de ancho de banda
constante [18].
48
2.4.1 Ventanas comunmente utilizadas
Cualquier ventana integrable puede utilizarse en la transformada de Gabor,

pero algunas opciones son ms convenientes que otras. La principal
caracterstica de una buena ventana es estar bien definidas en los dominios
del tiempo y la frecuencia. Algunas de las usadas ms comunmente se
muestran en la Fig. 2.7, y los logaritmos de sus transformadas de Fourier se
pueden ver en la Fig. 2.8.
Fig. 2.7. Ventanas comunmente utilizadas en el anlisis de Gabor. La notacin del eje
horizontal debe dividirse entre 512 para coincidir con las frmulas matemticas dadas en la
monografa [23].
49
Fig. 2.8. Grfica del logaritmo ' DE7F, |7
| de las grficas mostradas en la Fig 2.7 [23].
La razn principal para usar estas ventanas es el hecho de que tengan formas
simples y funcionales y que sus transformadas de Fourier estan concentradas
esencialmente alrededor del origen ' = 0, como se ven en la Fig. 2.8. Las
frmulas matemticas que definen a dichas ventanas son las siguientes[18]:
Rectangular
7
=H
1, 0 I I 1/2
0, 1/2 K K 0
Ec. 2.8
Triangular (Bartlett)
2 , 0 I I 1/2
L2 1
, 1/2 K I 1
0, 1 K K 0
Ec. 2.9
50
Hanning
=H
0.54 0.46 cos 2= , 0

0, 1 <
1
<0
Ec. 2.10
Blackman
0.42 0.5 cos 2= + 0.08 cos 4= , 0

=H
0, 1 <
1
<0
Ec. 2.11
2.4.2 Ejemplo de Anlisis de Voz
Se considera la seal de voz de la Fig. 2.9. Un posible modelo para describir la

seal, al menos en su parte central, est dado por la ecuacin
= R ST
TXF
UE0T
Ec. 2.12
Con frecuencias aproximadamente de la forma YT
DY,
D', , donde ',
es la frecuencia de paso [12].
51
Es claro que si el ancho de banda de la ventana a usarse en este ejemplo

excede ', , cada una de las funciones de Gabor con frecuencia dentro de la
banda de frecuencia de la seal ver varias armnicas de la seal. Esto es
perfectamente visible en la Fig. 2.9(c), donde la transformada de Gabor oscila
en funcin del tiempo con frecuencia igual a la altura de la seal [23].
Fig. 2.9 (a) Seal de Voz How are you, (b) Transformada de Gabor con una ventana estrecha,
(c) Transformada de Gabor con una ventana ms amplia [23].
En contraste, cuando el ancho de banda es ms pequeo que la frecuencia de

corte, no existe la interferencia.
52
2.5 TRANSFORMADA WAVELET
Una alternativa a la transformada de Gabor es la de utilizar ventanas

moduladas, pero de dimensin variable, ajustada a la frecuencia de oscilacin.
Ms precisamente, que mantenga un mismo nmero de oscilaciones en el
dominio de la ventana. Esto sugiere, contar con una nica ventana modulada y
generar una completa familia de funciones elementales mediante sus
dilataciones o contracciones y traslaciones en el tiempo [20]:
\|]|
^
]
Ec. 2.13
Donde ] 0 y b son los parmetros de escala y traslacin. Se preserva la

energa de las funciones mediante un factor de normalizacin.
La funcin [
, debe verificar ciertas condiciones de admisibilidad y se
denomina wavelet madre y el resto de las funciones generadas, simplemente

wavelets [17]. Se denotan las mismas como:
[`,a
\|]|
^
]
Ec. 2.14
Las condiciones de admisibilidad bsicamente requieren que la funcin [
est bien localizada en tiempo, de media nula y que la transformada [b ' sea
53
un filtro continuo pasa banda, con rpido decaimiento hacia el infinito y hacia
' = 0.
Entonces, dada una seal s(t), de energa finita la Transformada Wavelet

Continua de s se define como:
c0
], ^ =
[`,a
Ec. 2.15
Para cada par de parmetros reales (a,b), ] 0. Si la onda es real, la

definicin se restringe para valores positivos de a [19]. La transformacin as
definida preserva la energa de la seal, y posee una frmula integral de
inversin. Si la wavelet madre es real, la reconstruccin se realiza como:
= dc
#
#
c0
], ^ [`,a
^ ]
]
Ec. 2.16
Donde dc es una constante positiva.
La frmula expresa la sntesis de la seal como la superposicin integral de las

funciones elementales [`,a
El mapeo sobre dominio tiempo frecuencia en (a,b), esto es la Transformada

Wavelet Continua, representa una novedosa alternativa a la Transformada de
54
Fourier por ventanas. Ella despliega la informacin de la seal en una

estructura radicalmente diferente [6].
Cualquier wavelet real [

centrado en un
,,
, admisible, est bien localizada en un intervalo
de longitud y que su transformada [b ' est localizada
en una banda biltera 0 'F |'| ' , de ancho > . Entonces, las
waveletes [`,a
estn localizadas en el intervalo centrado en ]
+ ^, de
longitud ] en la banda biltera 0 'F /] |'| ' /], de ancho > /].
Se observa que la precisin en tiempo es inversamente proporcional a la

precisin en frecuencia, mantenindose constante la relacin 8 . Esta es la
diferencia fundamental con la Transformada de Gabor [20].
Ms an, para cada valor de a, la familia de wavelets parametrizada por b, se

comporta como una ventana deslizante, de ancho de banda constante, pero el
nmero de oscilaciones de estas ondas elementales es siempre el mismo, en el
marco efectivo de la ventana.
Por otra parte, si la transformada [b ' decae rpidamente a cero en torno de

' = 0, se verifica la propiedad de oscilacin:
#
#
=0
Ec. 2.17
55
Para k = 0,..,K. Esta importante propiedad, que no posee la Transformada de

Gabor, es trascendente en las aplicaciones de anlisis de seales, para la
deteccin de fenmenos puntuales, como discontinuidades o bruscos cambios
en las derivadas [19].
En efecto, si modelamos apropiadamente la seal fsica, por una funcin s(t),

de modo que las derivadas reflejen los cambios de locales de comportamiento,
en torno de cada punto
`,a
=]
+ ^, de radio , el proceso queda
caracterizado por el correspondiente polinomio de Taylor, hasta cierto orden

K+1. Si el proceso es razonablemente suave en el entorno, la propiedad de
oscilacin nos dice que la magnitud f
c0
], ^ f es no significativa. En
contraposicin, un brusco cambio en el entorno, que se refleja en la derivada

de orden K+1, podr ser bien detectado.
Otra propiedad relevante de la transformada continua es su invariancia

respecto de las traslaciones o cambios de escala de seal. Estructuras
similares, sern detectadas de la misma forma, independientemente de su
localizacin temporal o escala [23].
En suma, por sus propiedades la Transformada Wavelet constituye una

promisoria y ventajosa alternativa para el procesamiento de seales, en
particular las de Emisiones Acsticas.
56
Captulo 3. Aplicaciones de Procesamiento de Voz.
CAPITULO 3.
APLICACIONES DE PROCESAMIENTO DE VOZ
Las aplicaciones de procesamiento de voz son cada vez ms frecuentes en

todos los mbitos de nuestra vida, las empresas de todos los rubros avanzan a
pasos agigantados en cuanto a tecnologa se refiere y dentro de esta
evolucin, el procesamiento de voz adquiere un papel cada vez ms
importante.
En esta investigacin se advirti que casi todas las aplicaciones utilizan las
mismas bases para aplicar el procesamiento de voz en sus productos. La
relacin tiempo frecuencia. Esto para obtener los espectros de las seales de
audio y compararlos con una base de datos preestablecida para as poder
obtener un resultado deseado.
3.1 APLICACIONES CON MATLAB Y CSLU TOOLKIT [25]
3.1.1 CSLU Toolkit

CSLU Toolkit es un programa creado por el Oregon Graduate Institute of
Science & Technology (OGI). Las siglas CSLU corresponden al Center for
Spoken Language Understanding del mismo instituto.
El CSLU Toolkit es una plataforma para la investigacin y desarrollo de

sistemas de lenguaje hablado, la cual incluye herramientas audiovisuales para
el procesamiento y reconocimiento de voz.
57
Entre estas herramientas tenemos la llamada Speech Viewer.
Fig. 3.1 Anlisis grfico en Speech Viewer [25].
En la Figura 3.1 se muestra el anlisis grfico de la pronunciacin de la letra

a. Este anlisis proporciona la siguiente informacin:
La ventana 1 muestra la forma de onda seleccionada del archivo de

sonido utilizado, el cual fue previamente grabado. Este grfico muestra
dos variables: Amplitud y Tiempo.
La ventana 2 muestra el espectrograma de la forma de onda

seleccionada. En este grfico se manejan tres variables: Frecuencia
(Hz), Tiempo (ms) y Amplitud (dB). Esta ltima variable se mide sobre el
eje z de la grfica. Las zonas rojas representan las frecuencias con
mayor amplitud, en tanto que las zonas verdes y oscuras presentan las
frecuencias con menor amplitud.
Con este programa se puede enfocar a detectar particularidades en los

diferentes sonidos grabados, tanto en el dominio del tiempo, como en el
58
dominio de la frecuencia. Estas particularidades nos llevaran a establecer que

es posible diferenciar un sonido de otro, aunque su pronunciacin sea similar.
En las figuras 3.2 y 3.3 se presentan las grficas obtenidas para las
pronunciaciones de 2 vocales ms. Estas grficas muestran la forma de onda
de la voz (sonido) y su espectrograma.
Fig. 3.2 Pronunciacin de la letra E [25].
Fig. 3.3 Pronunciacin de la letra I [25].
Por la tanto se sabe que aunque existen pronunciaciones similares en su forma

de
onda,
presentarn
diferencias
en
su
espectro
de
frecuencias
(espectrograma). Debido a esto, la manera de diferenciar y reconocer los

diferentes sonidos requiere de ms informacin, la cual puede encontrarse en
su representacin en el dominio de la frecuencia.
59
3.1.2 MatLab
MatLab ofrece los medios necesarios para la implementacin de algoritmos
especializados en el procesamiento digital de seales. En esta etapa se
obtiene, con la misma calidad, los resultados que da Speech Viewer.
Adicionalmente se presentarn las bases para la programacin en Matlab,
como son:
Digitalizacin de un archivo de sonido
Implementacin de la Transformada de Fourier para representar la seal

en el dominio de la frecuencia.
Graficar los resultados
Es necesario convertir la muestra de audio en una serie de datos que se

puedan interpretar. Para esto se graba en la computadora la muestra de sonido
en un archivo con extensin .wav y despus se procesa mediante la
instruccin wavread incluida en Matlab. Esta instruccin nos proporciona dos
parmetros:
Fs= Frecuencia de muestreo en Hz.

s= Vector que contiene los datos obtenidos de la lectura de la muestra.
Debido a que se trabaja en el dominio de la frecuencia, es necesario que el

vector de datos (s) cumpla ciertas condiciones. Para representar la seal en el
dominio de la frecuencia se aplica la Transformada Discreta de Fourier. La
longitud del vector s se representa mediante el parmetro m. Los componentes
60
reales e imaginarios resultantes de la DFT del vector s son almacenados en el

vector x, y la magnitud de la DFT(x) se representa por mag.
Se presenta el algoritmo para graficar la representacin del archivo de sonido

en el dominio de la frecuencia.
f=(0:s/2)*Fs/m;
subplot(221), plot(s), axis tight, grid on, title(Seal de Voz);
subplot(222), specgram(s), title(Espectrograma), colorbar;
subplot(223), plot (f,mag(1:m/2+1)), axis ([0 5000 0 10]), grid on, xlabel(Frecuencia (Hz)),
ylabel(Magnitud), title(Representacin en Frecuencia);
Como resultado se obtiene una imagen con los siguientes grficos:
Seal de voz.- Graficacin de los datos del vector s.
Espectrograma.- Espectro de frecuencias del vector s.
Representacin en frecuencia.- Representa los parmetros frecuencia (f)

vs. Magnitud (mag).
En la figura 3.4 se observan los resultados obtenidos con la pronunciacin de la

letra A.
Fig. 3.4 Pronunciacin de la letra A [25]
61
La representacin en frecuencia nos muestra diferencias entre sonidos

similares en su forma de onda. Sin embargo los programas como Matlab, tratan
a la voz como una serie de datos, no se le da una interpretacin visual,
originando que puedan existir errores de reconocimiento. El espectro de la
seal presenta valores mximos y mnimos, distribuidos de diferente manera
para cada sonido. Si la intensidad de la seal cambia, tambin lo har la
magnitud del espectro. Aunque la forma de onda se conserva, no as su escala
de valores. Esto provoca la confusin y el no reconocimiento de sonidos, ya
que estos valores pueden caer dentro del rango correspondiente a otro sonido
[25].
Para solucionar el problema de confusin entre sonidos se realiza lo siguiente:
Estabilizacin de la seal. c=s./max(abs(s)); En donde c es el vector

normalizado de s.
Despus de aplicar la DFT de el vector c, se obtiene la magnitud del

mismo y se eleva al cuadrado. mag=(abs(x)).^2; Con esto se mantienen
altos los mximos y mnimos ms significativos, y se mantienen bajos
los menos significativos. De igual manera se establece una diferencia
mayor entre estos valores y los correspondientes a otro sonido. As se
reduce la probabilidad de confusin entre los mismos, ya que esta
diferencia no es lineal.
62
Fig. 3.5 Comparacin entre el espectro original y el espectro Normalizado del fonema EME
[25].
Despus de dicho procedimiento prcticamente ha desaparecido el ruido

presente en las frecuencias mayores a 1KHz. Si se toma como mximo
dominante el pulso que se encuentra dentro del rango de 400 a 700 Hz. Se
encuentra que, en el espectro original, la diferencia entre ellos es muy pequea
(11-10=1). Sin embargo, en el espectro normalizado, la diferencia entre ellos es
mayor (8.5 10
5.5 10
3.3 10 ).Con este procedimiento se pueden
diferenciar mejor los sonidos y evitar las confusiones en el procedimiento de

lectura de datos y mejorar notablemente el reconocimiento de voz.
63
3.2 APLICACIONES UTILIZANDO ESPECTROGRAMAS
3.2.1
Sistema
de
reconocimiento
de
voz
mediante
anlisis
de
espectrograma.
(Pat. US 2002/0128834 A1, 12/Sep/2002)
El reconocimiento de elementos conocidos del habla humana (fonemas, grupos

de fonemas, slabas, palabras o frases) en los sonidos de una pronunciacin
humana es fundamental para cualquier aplicacin computacional donde la
operacin de dicha computadora dependa en lo que el usuario diga [33]. Tales
aplicaciones incluyen, por ejemplo, sistemas de dictado, donde el texto
pronunciado por un usuario es procesado en la computadora en forma textual.
Otra de las aplicaciones es el sistema de comandos, en el cual el texto
pronunciado por el usuario forma un comando que deber realizar la
computadora.
La figura 3.6 ilustra una red de computadoras 610 en la cual la presente

invencin se ha implementado. Un usuario (620) proporciona el procesamiento,
guardado, dispositivos de entrada y salida para proveer el procesamiento de
voz. El usuario puede estar tambin conectado a una red de comunicaciones
(610) en la cual tiene acceso a otros dispositivos computacionales, incluidos los
servidores de las computadoras (630 y 632). La red de comunicaciones puede
ser parte de Internet y utilizar protocolos TCP/IP para comunicarse con otros
equipos.
64
Un usuario proporciona la grabacin de voz mediante algn hardware

(micrfono) en una forma aceptable de pronunciacin del lenguaje (602) y lo
guarda en una forma digital (604). El sonido digitalizado tambin se puede
obtener de un archivo (606) o a travs de la red (610). El sistema
computacional de procesamiento de voz (660) recibe la informacin de un
diccionario (603).
Fig. 3.6 Sistema de computadoras donde se implementa la invencin [33].
La figura 3.7 ilustra la estructura interna de una computadora de la red, donde

se muestran el sistema de bus (700), interfaces de entrada y salida para
conectar los dispositivos a la computadora tales como micrfonos y bocinas
(702) , interfaces de red (706) , memoria voltil (708), memoria de disco o no
voltil (710), una Unidad Central de Proceso (704). Todo esto utilizado con la
finalidad de procesar el sonido de la pronunciacin humana.
65
Fig 3.7 Estructura interna de la computadora [33].
La figura 3.8 muestra la estructura de uno de los diccionarios utilizados en la

presente invencin. Cada diccionario contiene diversos segmentos que ayudan
en el procesamiento de las muestras de voz.
66
Fig. 3.8 Estructura interna de un diccionario [33].
Los segmentos pertenecen a diferentes tipos: vocales acentuadas, vocales no

acentuadas, consonantes sonoras adyacentes, sonido sordo, sonido no sordo,
pausas e irreconocibles (este ltimo se utiliza si el segmento no puede ser
reconocido dentro de ninguno de los segmentos). En consecuencia, cualquier
diccionario incluye diversos segmentos como los mencionados anteriormente,
para as clasificar lo que el usuario dice. Adicionalmente, un diccionario puede
contener alguna informacin suprasegmental, que describe por ejemplo, la
fuerza o la duracin de las palabras dichas. Tambin puede contener algunos
algoritmos creados especficamente para detectar la pronunciacin humana.
Estos algoritmos pueden asociarse a cualquiera de los segmentos ya
mencionados.
El diccionario se puede cargar usando un proceso manual o un proceso

interactivo. El proceso incluye analizar el espectrograma de la muestra de voz
para as determinar crestas. Las crestas son utilizadas para distinguir e
identificar formantes reales en las muestras de sonidos externos. Esto permite
capturar la informacin en sonidos de vocales, que es especialmente
importante. La informacin de los formantes se pueden guardar en el
67
diccionario para ser usados de manera posterior en comparacin de segmentos

de voces.
En la presente invencin, algunos segmentos son de expresin continua. La

figura 3.9 ilustra la estructura de un segmento de expresin continua en una
entrada de diccionario.
Fig. 3.9 Estructura de un segmento de voz continua dentro de una entrada de diccionario [33].
La figura 3.9 muestra la informacin contenida en uno de los diferentes

diccionarios, para un segmento de expresin continua (802). Cada persona
mediante su voz, y la duracin del segmento hablado produce al menos un pico
prominente en el espectrograma. Este pico se le llama formante. La
informacin contiene los contornos para cada formante (805, 506, 807), la
duracin del segmento (815) y el tiempo promedio de la frecuencia para cada
formante (808, 809, 810). Tambin incluye los corredores 811, 812 u 813,
68
dentro de los cuales contiene la frecuencia promedio del correspondiente

formante cuando el segmento es pronunciado. Cada corredor es un intervalo
definido por dos frecuencias: la ms alta y la ms baja. Dentro del sistema
tambin pueden existir algunos algoritmos optimizados especficamente para la
deteccin de ste segmento dentro de la pronunciacin humana.
El Mtodo ptimo de Inversin, es la operacin de la presente invencin en la

forma de una operacin para emparejar diccionarios, el cual trabaja sobre una
grabacin de sonido digitalizada. El mtodo se divide en una secuencia de
segmentos 901-905. Los segmentos 802, 803 y 804 de la entrada de
diccionario se comparan primero con los segmentos 901, 902, 903, despus
con los segmentos 902, 903, 904 y finalmente con los segmentos 903, 904 y
905. El nmero de segmentos a compararse debe de ser igual a los de la
entrada de diccionario. Al resultado de las comparaciones se le llama
Secuencias de Segmentos Probadas.
Debido a que el tema de esta monografa es la relacin tiempo frecuencia

omitir las siguientes explicaciones hasta llegar a la caracterizacin de los
espectrogramas que son la parte fundamental de esta invencin y de esta
monografa.
El sonido de la voz humana tiene un espectro discreto de armnicos. Un

espectrograma normalmente se obtiene mediante un arreglo de frecuencias. El
principal objetivo de los mtodos de la obtencin de espectrograma es crearlo
mediante la captura de la mayor parte de los armnicos del sonido de voz, y
69
tomar lo menos posible el ruido inevitablemente presente en cualquier

grabacin de sonido. Estos mtodos estn diseados para trabajar con
diferentes usuarios, y tambin con el mismo usuario en tiempos diferentes.
Fig. 3.10 Mtodo de Transformada de Tiempo Triple [33].
En la figura 3.10 se ilustra el mtodo de la Transformada de Tiempo Triple

usado para obtener un espectrograma (1006) de un segmento de voz continua
(900). Despus de que se determina la frecuencia de tono bsico. La
frecuencia del tono bsico es la frecuencia del menor de los armnicos dentro
de un segmento de voz continua. (1001), la grabacin de sonido se escala
como se muestra en 1003. Esta grabacin de sonido escalada se procesa,
1004, utilizando un grupo de frecuencias 1002 para obtener un espectrograma
70
intermedio, 1005. El espectrograma intermedio tiene que ser ahora escalado en

la dimensin de tiempo para restablecer la duracin original del segmento y en
la dimensin de frecuencia para tomar en cuenta la distorsin que se provoc
en el primer escalamiento 1003.
Despus de pasar por sta etapa, los datos del ltimo espectrograma son los
que van directamente hacia alguno de los diccionarios, para ah hacer la
comparacin con los datos que ya contienen dichos diccionarios, y as poder
saber o conocer que fonema, grupo de fonemas, palabra o frase est siendo
utilizada.
3.2.2 Mtodos de identificacin usando anlisis de voz.

(Pat. US 2009/0326942 A1, 31/Dic/2009)
La presente invencin [34] se trata de los mtodos utilizados para identificar a

un usuario, basndose en los patrones distintivos e individuales de la
caracterstica de voz. Ms especficamente en la utilizacin de espectrogramas
de la pronunciacin de palabras, tomando sus caractersticas y comparndolos
con una segunda pronunciacin de palabras. La presente invencin utiliza el
espectrograma tiempo frecuencia de un sonido de voz. Un espectrograma de
la voz de una persona, analizada mediante computadora, tendr ciertos
parmetros en particular para as establecer un patrn nico para cada
persona. A esto se le llama Espectrograma Fontico Biomtrico y puede
utilizarse para la comparacin o identificacin de personas.
71
Para obtener dicho Espectrograma para un determinado usuario, primero se

analiza una pequea muestra, entre 25 a 50 ms de duracin. Este pequeo
sonido generalmente ser de una vocal pronunciada por el usuario durante una
pltica comn, pero cualquier vibracin vocal puede ser utilizada. Las cuerdas
vocales del usuario deben estar vibrando durante el sonido seleccionado. El
inventor de este sistema encontr que la imagen detallada de un proceso de
fonacin de un usuario, obtenida mediante los mtodos de sta invencin,
revela patrones individuales y caractersticos en el plano tiempo frecuencia.
Lo cual nos indica que la anatoma de la laringe, cuerdas vocales y proceso de
fonacin son diferentes para cada persona.
Fig. 3.11 Diagrama de flujo de la presente invencin [34].
72
La figura 3.11 muestra un diagrama de flujo donde se explica en general el

funcionamiento de dicha invencin. Se puede notar que todos los segmentos
desde el 1 hasta el 3, estn divididos en A y B, esto es as ya que se necesitan
dos muestras, la primera para reconocer a la persona y la segunda para
comparar y comprobar que es el mismo usuario que en la primera muestra.
Fig. 3.12 Espectrogramas de un usuario predeterminado [34].
La figura 3.12 muestra el mtodo para seleccionar porciones de sonidos

utilizables para la voz biomtrica desde una pronunciacin del usuario. El panel
73
1 muestra una onda de forma de un usuario diciendo secure Access, creative

thought. Esta pronunuciacin fue grabada con un micrfono de baja fidelidad
usando una frecuencia de muestreo de 44.1 KHz. El panel 2 muestra la silaba
[ac] que corresponde a la palabra access, mientras el panel 3 muestra una
porcin de 39 ms de esta vocal escogida para crear el espectrograma fontico
biomtrico que se muestra en el panel 4. Para procesar este espectrograma, se
usaron marcos de anlisis de 5 ms con una superposicin de 45
microsegundos.
Fig. 3.13 Comparacin de 3 diferentes tipos de espectrogramas [34].
74
La figura 3.13 nos muestra una comparacin de tres diferentes tipos de

espectrogramas del mismo segmente de habla. Algunos pulsos de las cuerdas
vocales se muestran de la vocal [ac] como ocurre en una pronunciacin natural
incluyendo la palabra access. El panel 1 muestra un ejemplo convencional de
espectrograma de este segmento de palabra. El panel 2 muestra un
espectrograma del panel 1, y el panel 3 muestra un espectrograma del panel 2
despus de un corte selectivo de los puntos que no cumplen con el umbral de
la derivacin de segundo orden, o que no cumplen con el rango necesario. La
pronunciacin fue de una mujer en un micrfono de laptop con un muestreo de
44.1 KHz. Se usaron marcos de anlisis de 4 ms para estos espectrogramas,
con marcos superpuestos de 45 microsegundos. Para el panel 3, los puntos del
panel dos no fueron graficados a menos que sus derivadas de segundo orden
estuvieran dentro de los rangos de -0.25 y 0.25 para los componentes y entre
0.75 y 1.25 para los impulsos.
Fig. 3.14 Espectrogramas de la vocal a para

compararse con los espectrogramas en la
figura 3.15 [34].
La figura 3.14 muestra los espectrogramas obtenidos de la vocal a en la

palabra cuando, son los espectrogramas obtenidos en la primera muestra de
75
dos, ya que stos se compararn con los obtenidos en la figura 3.13. Se puede
notar que estn hechos para 3 diferentes usuarios, se notan las diferencias
entre cada uno de los espectrogramas, debido a que cada usuario, aunque
pronuncia la misma palabra y se toma la misma vocal, tiene una frecuencia y
un tiempo diferentes. Esto se utiliza para poder identificar a los usuarios
mediante su voz. As, con esta invencin queda demostrado que cada quien
tendr espectrogramas diferentes de su voz, no importando que se mencione la
misma palabra o la misma frase, incluso la misma letra.
Fig. 3.15 Espectrogramas de la segunda

muestra de voz [34].
Es importante notar que los tres espectrogramas tienen la misma dimensin en

tiempo y en frecuencia, pero los resultados obtenidos, tal como se esperaba,
son diferentes para cada uno de los 3 usuarios.
76
3.3 APLICACIONES USANDO WAVELETS
3.3.1 Procedimiento y dispositivo de clasificacin de las seales del habla

(Publicacin 2 165 933, patente europea, 01/04/2002)
La invencin se refiere a un procedimiento para clasificar las seales de habla,

as como a una disposicin de circuitos para llevar a cabo el procedimiento
[31].
Cada vez son ms importantes los procedimientos de codificacin del habla y

disposiciones de circuitos respectivos con el fin de clarificar seales de habla
con una velocidad por debajo de 8 kbits por segundo.
Las aplicaciones principales a tal objeto se pueden encontrar, entre otras, en la

transmisin multiplex para redes fijas existentes y en los sistemas de telegrafa
mvil de tercera generacin. Adems, los procedimientos de codificacin del
habla en ese mbito de velocidad son necesarios a la hora de disponer
servicios como, por ejemplo, la videofona.
La mayora de los procedimientos de codificacin del habla de alta calidad

conocidos en la actualidad calculan el resultado de la clasificacin de
parmetros conseguidos mediante el clculo de valores temporales medios a
travs de una ventana de longitud constante. Por consiguiente, la resolucin
temporal se predetermina de forma fija al elegir la longitud de la ventana. Si se
reduce la longitud de la ventana, tambin desciende la exactitud de los valores
77
medios. Si, en cambio, se aumenta la longitud de dicha ventana, el transcurso

temporal de los valores medios ya no puede seguir la seal de habla no
uniforme. Esto es vlido particularmente, para los pasos fuertemente no
uniformes de las secciones del habla sordas y sonoras. Sin embargo, es la
reproduccin temporal correcta de la posicin de los primeros impulsos
significativos de las secciones sonoras la que es importante para la evaluacin
subjetiva de un procedimiento de codificacin. Otras desventajas de los
procedimientos de clasificacin convencionales radican a menudo en una alta
complejidad o una fuerte dependencia de los ruidos de fondo que en la prctica
siempre estn presentes.
La invencin tiene como objeto crear un procedimiento y un clasificador de

seales de habla para un mando adaptado a las seales de procedimientos de
codificacin del habla para disminuir la velocidad con una calidad del habla
invariante y para aumentar la calidad con la misma velocidad clasificando la
seal de transformacin de wavelet para cada periodo temporal, con lo cual se
debe conseguir una alta resolucin tanto en lo referente a la gama temporal
como en lo referente a la gama de frecuencias.
En este prrafo se describe un procedimiento y una disposicin para clasificar

la seal de habla basndose en la transformacin de wavelet para cada
intervalo temporal. Por ellos, se puede conseguir, conforme a los requisitos de
la seal de habla, una alta resolucin tanto en la gama temporal (localizacin
de impulsos) como en la gama de frecuencias (buenos valores medios). Por
eso, la clasificacin est indicada particularmente para un mando y la eleccin
78
de libros de cdigos en un codificador de habla de baja velocidad. En la

transformacin wavelet se trata, de modo parecido a lo que ocurre en la
transformacin de Fourier, de un procedimiento matemtico para crear un
modelo de una seal o sistema. Sin embargo, al contrario que en la
transformacin de Fourier, la resolucin se puede adaptar correspondiente de
manera flexible a las exigencias en el mbito del tiempo y de la frecuencia, por
ejemplo, en el mbito de las escalas. Las funciones bsicas de la
transformacin de wavelet se crean a travs de la escala y el desplazamiento
de un llamado Mother Wavelet (Wavelet madre) y presentan un carcter de
pasabanda. Por consiguiente, la transformacin de wavelet slo se define
unvocamente a travs de la indicacin del Mother Wavelet respectivo.
Debido a sus caractersticas, la transformacin de wavelet presta un buen

servicio en el anlisis de seales no uniformes. Otra ventaja es la existencia de
algoritmos rpidos con los cuales se puede realizar un clculo eficiente de la
transformacin de wavelet. Existen aplicaciones exitosas en el rea del
procesamiento de seales, entre otras cosas, en la codificacin de imgenes,
con los procedimientos de correlacin de banda ancha (por ejemplo, para el
radar) as como para calcular la frecuencia bsica del habla.
A continuacin, se describir la invencin con ms detalle a travs de un

ejemplo de realizacin. Para describir el procedimiento se debe emplear la
estructura principal de un clasificador segn la figura 3.16. En primer lugar se
lleva a cabo la segmentacin de la seal del habla. La seal del habla se divide
en segmentos de longitud constante, con lo cual la longitud de los segmentos
79
debe ser de entre 5mS y 40mS. Para evitar los efectos secundarios en la
transformacin sucesiva se puede emplear una de las tres tcnicas siguientes:
El segmento se refleja en los lmites.
La transformacin de wavelet se calcula a intervalos ms pequeos (L/2,

N-L/2), y el intervalo slo se desplaza debido al desplazamiento
constante L/2, de modo que los segmentos se superpongan. Con ello, L
es la longitud de un wavelet centrado en el origen temporal, con lo cual
debe tener validez la condicin N>L.
En los bordes del segmento se recarga con los valores de exploracin

anteriores y posteriores.
Fig. 3.16 Estructura principal de un clasificador [31].
Despus se efecta una transformacin de wavelet discreta. Para este

segmento s(k) se calcula una Transformada Wavelets de Tiempo Discreto
80
(DWT).
( , ) respecto a una wavelet h(k) con los parmetros enteros escala
m y cambio temporal n. Esta transformacin se define mediante

( , )
Donde
( )(
, representan el lmite inferior y superior del ndice de tiempo k
predeterminado a travs de la segmentacin elegida. Slo hay que calcular la

transformacin del mbito de escala 0<m<M y la gama temporal del intervalo
(0,N), mientras que la constante M en funcin de
debe elegirse de forma qe
sea tan grande que las frecuencias de seales ms bajas en el mbito de

transformacin se representen lo suficientemente bien.
Por lo general, para clasificar las seales de habla es suficiente contemplar la

seal respecto a las escalas didicas (potencias de dos) (
2). Si el wavelet
h(k) se puede representar a travs de un llamado Anlisis Multiresolucin

segn Rioul, Vetterli mediante un banco de filtros iterativo, se pueden emplear
algoritmos recursivos eficientes e indicados en la literatura para calcular la
transformacin de Wavelet. En este caso (
2) es suficiente para una
descomposicin hasta un mximo de M=6. Para la clasificacin sirven

particularmente los Wavelets con pocos ciclos de oscilacin significantes. Por
ejemplo, se pueden emplear los Spline-Wavelets cbicos o los DaubechiesWavelets ortogonales de longitud pequea.
Despus se lleva a cabo la clasificacin. El segmento de habla se divide en

clases en base a los coeficientes de transformacin. Para obtener una
resolucin de tiempo suficientemente adecuada, el segmento tambin se divide
81
en sub intervalos P, de modo que se obtiene un resultado de clasificacin para

cada sub intervalo. Para su uso en procedimientos de codificacin del habla de
baja proporcin se llev a cabo la distincin entre las siguientes clases:
Ruido de fondo / sordo.
Transiciones de seal / voicing onsets.
Peridico / sonoro.
En su uso en determinados procedimientos de codificacin puede ser

conveniente subdividir la clase peridica an ms, por ejemplo, en secciones
con una energa principalmente de baja frecuencia o con una energa
distribuida de manera ms bien uniforme. Por eso, se puede realizar
opcionalmente una distincin en ms de tres clases.
A continuacin se lleva a cabo el clculo de parmetros en un procesador

correspondiente. En primer lugar, se determina una serie de parmetros a partir
de los coeficientes de transformacin
( , ), mediante lo cual se puede
efectuar la clasificacin definitiva a continuacin. Con ellos, la eleccin de los

parmetros dimensin diferencial de escala (#$ ), la dimensin diferencial
temporal (#% ) y la dimensin de periodicidad (#& ) mostraron ser particularmente
favorables.
Para #$ se calcula la varianza de la energa de los coeficientes de

transformacin DWT respecto a todos los mbitos de escala. En base a este
parmetro se puede constatar a intervalos, es decir, a travs de un retculo de
tiempo relativamente grueso si la seal es sorda o si slo presenta ruido de
fondo.
82
Para determinar #% , se calcula en primer lugar la diferencia energtica

intermedia de los coeficientes de transformacin entre el intervalo actual y el
intervalo anterior. A continuacin se determinan a travs de los coeficientes de
transformacin con fase de escala fina (m pequeo) las diferencias energticas
entre los sub intervalos contiguos y se comparan con la diferencia energtica
del intervalo total. Por ello, se puede determinar una medida para la
probabilidad de una transicin de seal (por ejemplo, sorda a sonora) para
cada sub intervalo, es decir, para un retculo de tiempo fino.
Para #& se controlan y determinan a intervalos los mximos locales de

coeficientes de transformacin de fase de escala gruesa (m cerca de M) en
caso de que stos aparezcan a intervalos regulares. Se denominan mximos
locales los picos que exceden cierto porcentaje T del mximo global del
intervalo.
Los niveles determinados necesarios para estos clculos de parmetros se

controlan de forma que se adapten dependiendo del nivel actual del ruido de
fondo, con lo que se aumenta la insensibilidad del procedimiento en un
ambiente ruidoso.
Despus se lleva a cabo la evaluacin. Los tres parmetros se transmiten a la

unidad de evaluacin en forma de probabilidades (cantidades reproducidas en
el mbito de valores (0.1)). La unidad de evaluacin misma determina el
resultado de la clasificacin definitiva para cada sub intervalo en base a un
83
modelo de estado. A travs de esto, se tiene en cuenta la memoria de las

decisiones tomadas para los sub intervalos anteriores. Adems no se permiten
las transiciones significativas, por ejemplo, el salto directo de sordo a
sonoro. Finalmente, se da como resultado un vector con componentes P que
contenga el resultado de clasificacin para los sub intervalos P.
En las figuras 3.17 y 3.18 se representan de forma ejemplar los resultados de

clasificacin para el segmento del habla parcel, Id like de una hablante
inglesa. Con ello, los intervalos del habla de 20ms de longitud se dividen en
cuatro subintervalos equidistantes cada uno de 5ms. La DWT slo se calcula
para los pasos de escala diticos y se implementa a base de Spline Wavelets
cbicos con la ayuda de un banco de filtros. Las tres clases de seal se
denominan 0,1,2 en el mismo orden que constan arriba. Para la figura 3.17 se
utiliz el lenguaje de la banda telefnica (200Hz hasta 3400Hz) sin ruidos,
mientras que para la figura 3.18 se superpusieron adicionalmente ruidos de
vehculos con una razn de seal ruido media de 10 dB.
84
Fig 3.17 Clasificacin del habla sin ruidos externos [31].
Fig. 3.18 Clasificacin del habla con ruido externo de 10dB [31].
La comparacin de las dos ilustraciones muestra que el resultado de

clasificacin es aproximadamente independiente del nivel de ruido. A excepcin
85
de pequeas diferencias irrelevantes en cuanto a las aplicaciones en la

codificacin del habla se puede localizar bien las secciones peridicas
perceptivamente importantes as como sus puntos iniciales y sus puntos finales
en ambos casos. A partir de la evaluacin de una gran variedad de material de
habla result que el error de clasificacin situado claramente por debajo del 5%
se encuentra en las razones sealruido superiores a 10 dB.
3.3.2 Mtodo para la extraccin de caractersticas de seales de voz y

sistema relacionado con el reconocimiento de voz.
(Pat. US 2003/0191640 A1, 9 de Octubre del 2003)
Segn la invencin [32], una muestra de seal de voz est sujeta a

transformarla en el dominio del tiempo y frecuencia por medio de una
estructura particular de filtros digitales, despus de los cuales se extrae un
conjunto de parmetros significantes de las caractersticas de la seal.
Un mtodo para la extraccin de caractersticas de una seal de voz

especfica,
para
un
sistema
de
reconocimiento
de
voz
automtico
esencialmente se compone de los siguientes pasos:
Descomponer la seal de muestra de voz para descomponer la seal en

una variedad de sub bandas por medio de un banco digital de filtros,
cuya estructura es un simtrico rbol binario, haciendo una transformada
de wavelet en cada uno de los nodos del rbol, los cuales se asocian
con cada una de las sub bandas.
86
Emplear todas las sub bandas obtenidas del rbol binario para generar
los parmetros correspondientes para representar las caractersticas
extradas de la seal de voz de muestra.
La figura 3.19 muestra un diagrama de bloques, desde el primer bloque (bloque

2) donde una muestra de voz S es ingresada, hasta el bloque 14, el cual
muestra la salida C, con las caractersticas de la seal de voz. Ahora se
analizar los 7 bloques que forman el anlisis de wavelet.
Fig. 3.19 Diagrama de Bloques del mtodo para la extraccin de caractersticas de voz [32].
El primer bloque (2) es un bloque de pre-nfasis el cual enfatiza alguna de las

frecuencias a las cuales el odo humano es ms sensitivo. El filtrado es
necesario para enfatizar las regiones del espectro ms importantes en trminos
de la percepcin auditiva, dicho espectro contiene las frecuencias ante las
87
cuales el odo humano es ms sensible. El filtrado de la seal sale del bloque 2

mediante un filtro FIR.
El segundo bloque (4) agrupa las muestras en marcos. La operacin de

agrupamiento de las muestras son llevadas a cabo considerando una ventana
de N muestras y M muestras en cada una de las ventanas, durante el tiempo
que permanece la seal. El valor de M se configura en 80, que corresponde a
10 ms de la seal , mientras tanto,
valores diferentes se han usado
experimentalmente para las dimensiones de la ventana N, siendo los ms

significantes N=256 y N=384 (correspondientes a 32 ms y
48 ms). La
posibilidad de crecer la ventana N hace posible el variar la resolucin de la

variable tiempo frecuencia, la cual se obtiene mediante una transformada
Wavelet.
El tercer bloque (6) filtra la seal a travs de un banco de filtros digitales,

realizando una transformada discreta Wavelet para descomponer la seal en
sub bandas. El conjunto de filtros digitales en el bloque 6 tiene una estructura
de rbol binario, similar al mostrado en la figura 3.20.
88
Fig. 3.20 Diagrama esquemtico que ilustra el rbol de filtrado [32].
El nmero de niveles en el rbol puede variar de acuerdo a la dimensin de los

marcos de entrada, (48 ms, 384 muestras en este caso), y al nmero de
parmetros (que corresponden al nmero de nodos en el rbol) a ser
calculados.
La figura 3.20 muestra varios niveles del rbol, desde el nivel 1 hasta el nivel 6.
Las diferentes resoluciones tiempo frecuencia (desde 384 muestras en el nivel
1, hasta 12 muestras en el nivel 6) se muestran entre parntesis. Las bandas
se vuelven ms cercanas y las muestras se vuelven ms escasas a medida
que se baja en los niveles del rbol. El filtrado se lleva a cabo mediante una
89
ventana de muestras de la seal original, manteniendo una memoria de las

ventanas anteriores.
La estructura 20 del rbol en la figura 3.20 consiste en una cascada de filtros

pasa baja (22a) y filtros pasa alta (24a). Despus de cada filtro se coloca otro
par de filtros, un pasa baja y uno pasa altas.
La arquitectura en el sitio 20 del rbol de anlisis compromete a todos los

nodos en seis niveles del rbol binario, que corresponde a considerar 63
bandas de frecuencia, una para cada nodo, con una resolucin de frecuencia
de 4 KHz en el primer nodo (21) hasta 125Hz en las hojas ltimas (31). El
nmero de muestras obtenidas en los nodos de filtrado decrece mientras se
desciende en el rbol, pero el intervalo de tiempo asociado a las muestras
filtradas no cambia. En el nodo 21 al inicio del rbol se tiene un intervalo de
tiempo de 384 muestras, cada nodo del segundo nivel le corresponden 192
muestras, los nodos del tercer nivel tienen 96 muestras, los del cuarto nivel
contienen 48 muestras, los del quinto nivel tienen 24 muestras y finalmente los
del ltimo nivel corresponden a 12 muestras cada uno.
De acuerdo al principio de incertidumbre de Heisinberg, existe una relacin

entre la resolucin tiempo y la resolucin frecuencia de las muestras en las
diferentes sub bandas. De acuerdo a este principio, el producto entre la
resolucin tiempo y la resolucin frecuencia de una seal no puede estar
debajo de cierto umbral. En este caso, considerando que la resolucin de la
frecuencia incrementa desde la raz (21) hasta las hojas (31) del rbol de
90
anlisis, se puede considerar un intervalo de tiempo diferente en cada nivel del

anlisis.
La figura 3.21 nos muestra una relacin de las frecuencias correspondientes en

cada nivel del rbol de anlisis. Los intervalos de tiempo se van viendo
reducidos a la mitad en cada uno de los niveles, pero nunca son menores a 10
ms.
Fig. 3.21 Relacin de frecuencias para cada uno de los niveles del rbol de anlisis [32].
Regresando de nuevo a la figura 3.9, en el bloque 8, se lleva a cabo una

operacin de integracin, despus de haber pasado por toda la operacin de
filtrado en el bloque 6. Esta operacin de integracin consiste en la extraccin
de los parmetros que sern utilizados para el proceso de reconocimiento,
estos parmetros se obtienen de las muestras obtenidas en las diferentes subbandas. De acuerdo a la invencin, las 63 sub-bandas se utilizan para extraer
los diferentes parmetros de voz. La operacin para la extraccin de dichos
parmetros se hace mediante el operador de integracin en cada una de las
muestras de las diferentes sub-bandas.
91
El operador de integracin se escoge de acuerdo a la siguiente frmula:

'
) $
()%
Como resultado de la integracin, se tendrn 63 valores calculados en el

anlisis de wavelet que resulta del rbol de anlisis. Los cuales corresponden a
las diferentes sub-bandas, cada una con un nivel de resolucin tiempo
frecuencia diferente. De acuerdo al procedimiento de la invencin las 63 subbandas (que corresponden a los 63 nodos del rbol) se emplean para extraer
las caractersticas de la seal de voz. Esta informacin aumenta la precisin
del reconocimiento de voz del sistema.
En el bloque 10 se lleva a cabo una operacin de compresin seguido de una

operacin de reduccin de parmetros, la reduccin se realiza mediante una
compresin logartmica.
Los siguientes bloques contienen una etapa de anlisis llamada PCA (Principal
Component Analysis) las cuales se llevan a cabo en el bloque 12, para sacar
las caractersticas principales despus de la reduccin de datos. En el bloque
14 se encuentra una red neuronal, la cual nos da como resultado la muestra C,
la cual contienen las principales caractersticas de la muestra S, las cuales nos
ayuda para hacer un reconocimiento de voz. Esta invencin fue hecha para
implementarse en los diferentes dispositivos que utilicen reconocimiento de
voz, ya que lo nico que hace este proyecto es sacar las caractersticas
principales de la muestra de voz.
92
3.4 APLICACIONES DE OTRAS DISTRIBUCIONES TIEMPO - FRECUENCIA
3.4.1 Anlisis de palabras utilizando la transformada de Gabor.

Esta investigacin emplea la transformada de Gabor para el anlisis de seales
de voz [35]. Dichas seales fueron grabadas en unas condiciones de ruido alto.
Los resultados de los anlisis fueron comparados con unos obtenidos mediante
el uso de la Transformada de Fourier de Tiempo Corto. El anlisis de Gabor, en
general demostr una mejor resolucin espectral comparada con el anlisis de
SFTF. Por lo tanto, esta aplicacin tiene un potencial ms alto y es ms
efectivo en el procesamiento de voz.
El anlisis de Gabor se aplic a ciertas palabras grabadas bajo un ambiente

con ruido. La figura 3.22 muestra la forma de onda de la palabra India. Es
evidente que el ruido de fondo es bastante predominante.
Fig. 3.22 Forma de onda de la palabra India [35].
93
La figura 3.23 muestra el espectro tiempo frecuencia empleando la

Transformada de Fourier de Tiempo Corto sobre la forma de onda de la figura
3.22.
Fig. 3.23 Anlisis de la Transformada de Fourier de Tiempo Corto sobre la forma de onda de la
figura 3.14 [35].
La figura 3.24 muestra el espectro tiempo frecuencia empleando el anlisis

de Gabor a la forma de onda de la figura 3.22. El espectro tiempo frecuencia
tiene el tiempo en el eje X, la frecuencia en el eje Y y la seal de potencia.
94
Fig. 3.24 Espectro tiempo frecuencia utilizando el anlisis de Gabor para la forma de onda de
la figura 3.16 [35].
Las figuras 3.25(a) y 3.25(b) muestran los espectrogramas de la forma de onda

original utilizando Transformada de Fourier de Tiempo Corto y anlisis de
Gabor respectivamente. Se puede observar, mediante las figuras 3.23, 3.24,
3.25(a) y 3.25(b), que el anlisis de Gabor tiene una mejor resolucin
comparado con la Transformada de Fourier de Tiempo Corto. stos dos
diferentes tipos de anlisis se aplicaron tambin a otras palabras grabadas en
condiciones de mucho ruido con resultados similares. Por lo tanto se puede
concluir, en general, que el anlisis de Gabor da como resultado una mejor
resolucin espectral, comparado con el mtodo de la Transformada de Fourier
de Tiempo Corto.
El anlisis de Gabor funciona mejor que varios otros mtodos, sobre todo
cuando se tiene un fondo con demasiado ruido al ser grabadas las palabras. El
anlisis de Gabor no es todava tan usado en comparacin con la
95
Transformada de Fourier de Tiempo Corto, pero tiene un mayor potencial por

explotar que lo dicho en este trabajo de investigacin.
Fig. 3.25 Espectrogramas de la forma de onda de la figura 3.22 empleando (a) STFT y (b)
anlisis de Gabor [35].
96
3.4.2 Anlisis tiempo frecuencia de la seales de voz utilizando una

distribucin suavizada Wigner Ville.
Este trabajo de investigacin muestra como la distribucin suavizada Wigner

Ville puede ser utilizada en el anlisis de las seales de voz. Si se suavizan las
funciones de tiempo y frecuencia se pueden utilizar para incrementar la
resolucin de un espectro Wigner Ville, esto a travs de la eliminacin de
trminos que afectan a la resolucin final del espectro [36].
El anlisis espectral basado en la Transformada de Fourier de Tiempo Corto es

una herramienta poderosa y muy conocida, pero no deja muy buenos
resultados para procesos no estacionarios debido a la mala resolucin de
frecuencia.
La distribucin Wigner Ville es una respuesta a este problema, pero

solamente para seales con componentes de frecuencias individuales. Para las
seales de frecuencias mltiples, a las cuales la mayora de seales en la vida
real pertenecen, la naturaleza bilineal de la distribucin produce interferencias.
Dicho fenmeno de interferencia muestra componentes de frecuencia que no
existen en realidad, lo cual afecta considerablemente la interpretacin del plano
tiempo frecuencia. El objetivo entonces es la eliminacin o atenuacin de
este problema de interferencias.
97
La distribucin Wigner Ville suavizada es un ejemplo de un desarrollo que se

basa en el uso de un kernel. Para eliminar trminos de interferencia, se utilizan
funciones Gaussianas en operaciones suavizadas de tiempo y frecuencia.
La distribucin Wigner Ville se define como:

2
2
*+ ,, - = . / 0, + 3 / , 4
2
2
56%789
:2
Donde z es la seal analtica obtenida de la seal real o seal original s.

Si se escoge una funcin kernel - ;, 2 = < ; 2 , con una transformada de
Fourier de la forma: = ,, > = =?@- ;, 2 A = B , C > se obtendr la llamada

Distribucin Wigner Ville suavizada:
#DEF ,, > = . 2 G. B
2
2
0 + 3 0 3 : I 4 56%7J9 :2
2
2
Se han probado diferentes funciones kernel, y la siguiente ha sido la que

mejores resultados ha tenido, filtrando las interferencias independientemente
de la direccin de los ejes, lo cual le da ms flexibilidad a la operacin de
suavizado:
- ;, 2 = 4
5K
7L
P
M%NO
79
5K
P
M%N
R
4
Sustituyendo en la ecuacin de la distribucin Wigner Ville suavizada,

tenemos que SPWVD(t,v)=
Q
5K
P
2
Q
= S . 4 M%NR . U;4 5%N L
T
79
,V+2
, V 2 :V 4 56
7J9
:2
98
Con sta distribucin Wigner Ville suavizada se puede hacer una mejor
lectura en los espectrogramas tiempo frecuencia, comparada con la
distribucin Wigner Ville normal. Los siguientes ejemplos muestras ms
claramente dicha comparacin.
a) Modelo de dos componentes:

Una seal que combina dos frecuencias f1=32Hz y f2=96Hz, se
muestran en la figura 3.26. Las figuras 3.27 y figura 3.28 representan,
respectivamente, la distribucin Wigner Ville y la distribucin Wigner Ville
suavizada.
Fig. 3.26 Forma de onda que combina dos seales de frecuencia [36].
Fig. 3.27 Distribucin Wigner Ville de la combinacin [36].
99
Fig. 3.28 Distribucin Wigner Ville suavizada [36].
b) Modelo de tres componentes:

La suma de tres frecuencias: 16Hz, 32 Hz y 64Hz se muestra en la
figura 3.29
Fig. 3.29 Suma de tres diferentes frecuencias [36].
La DVW y la DVWS se muestran en la figura 3.30 y la figura 3.31
Fig. 3.30 Representacin de la distribucin Wigner Ville [36].
100
Fig. 3.31 Representacin de la Distribucin Wigner Ville suavizada [36].
Con esto queda demostrado que al utilizar la distribucin Wigner Ville

suavizada, tenemos un grado de perfeccin mas amplio que con la Distribucin
normal, ya que los espectrogramas quedan mejor definidos y sin la seal de
ruido que generalmente inserta la distribucin de Wigner Ville. Por lo tanto el
reconocimiento de voz se puede hacer sin problema alguno, ya que teniendo la
base de datos de espectrogramas para letras o palabras, al hacer la
comparacin, podr detectar sin problemas que es lo que se est diciendo o
que es lo que contiene el archivo de voz que se va a procesar.
101
CONCLUSIONES
Las seales, por diversa que sea la aplicacin a realizar, cuentan con
caractersticas bsicas que son comunes a todas ellas. Por ejemplo, se puede
afirmar que cualquier seal es funcin de una o ms variables independientes y
que cuentan con informacin del comportamiento o naturaleza de algn
fenmeno en particular. Las seales se clasifican en diversos modos, y se
pueden representar de distintas maneras, pero no se debe olvidar que lo ms
importante de todas las seales, es la informacin que contienen y que se
puede aprovechar para nuestros proyectos y aplicaciones.
Uno de los tipos de seales, que en nuestros das es cada vez ms comn
trabajarlas, son las seales de audio. Con la informacin contenida en dichas
seales, mediante diferentes funciones como la Transformada de Fourier se
pueden obtener los espectros de la seal. Dichos espectros nos dicen las
diferentes frecuencias y su intensidad existentes en el archivo de audio, cules
frecuencias son las dominantes y cules se pueden considerar como ruido,
debido a su poca o dbil seal.
Pero an con estos espectros, hay informacin que se escapa, o que no se

menciona en dichos grficos. Se pueden saber las frecuencias utilizadas, pero
no se puede conocer en qu tiempo fueron usadas, por lo tanto se crearon
algunos mtodos que puedan indicarnos la frecuencia y el tiempo en el que
cada frecuencia se encuentra activa. A sta relacin se le conoce como
relacin Tiempo Frecuencia, lo cual nos muestra un mapeo ms preciso en
102
cuanto a las seales de audio se refiere. Existen diferentes herramientas que

nos ayudan para encontrar esta relacin, se vieron tres diferentes: La
Transformada de Fourier de Tiempo Corto, la Transformada Gabor y la
Transformada Wavelets, de las cuales la transformada Wavelets es la ms
utilizada en las aplicaciones de reconocimiento de voz.
Las aplicaciones de reconocimiento del habla o reconocimiento de voz, han ido

en aumento da a da, y en los tiempos venideros ser ms extendida su
aplicacin. Se utilizan hoy en da para sistemas de seguridad en una empresa
o incluso puede ser utilizada domsticamente, esta aplicacin realiza un
grabado de la persona que va a poder utilizar dicho sistema, se guardan los
valores de picos de frecuencia y en general las caractersticas de la seal de
audio. Al momento de querer ingresar se dice nuevamente la palabra o frase
clave y el sistema automticamente compara ambos valores, para as saber y
decidir si el usuario que intenta ingresar es el correcto o no.
La tendencia y el sentido comn dice entonces que en un futuro no muy lejano,

el reconocimiento de voz ser utilizado de manera regular y comn, se har un
sistema de uso mundial, y de uso en todos los productos del mercado, por lo
tanto es necesario seguir actualizndose en el tema, ya que su inminente
aplicacin en el futuro est empezando desde hoy.
103
LISTA DE FIGURAS
Captulo 1
Fig. 1.1 Circuito RC sencillo con voltaje en la fuente Vs y voltaje del capacitor Vc
Fig 1.2 Representacin grfica de la palabra should en funcin del tiempo
Fig. 1.3 Perfil tpico vertical anual del viento
Fig. 1.4 Diagrama de Bloques. Sistema Discreto.
Fig. 1.5 (a) Seal aperidica x(t) (b) Seal peridica ( ) construida
para que sea igual a x(t)en un periodo
Fig 1.6 Representacin grfica de la ecuacin 1.24
15
17
Fig. 1.7 (a) Seal x[n] de duracin finita. (b) seal peridica [ ] construida
para que sea igualada a x[n] en un periodo
27
Fig. 1.8 Representacin grfica de la ecuacin 1.44
30
Fig. 1.9Transformada de Fourier de [ ] =
32
Captulo 2
Fig. 2.1. Partitura de un arpegio
37
Fig. 2.2. Seal (a) y Espectro de Fourier (b) del arpegio.
37
Fig. 2.3. Representacin Tiempo Frecuencia del arpegio.
38
Fig 2.4. Seal de voz correspondiente a la palabra GABOR.

Seal en el tiempo y su densidad espectral de energa
41
Fig. 2.5. Seal de voz analizada en el plano tiempo frecuencia
42
Fig. 2.6. Distribucin Wigner Ville de una seal chirp linear
45
Fig. 2.7. Ventanas comunmente utilizadas en el anlisis de Gabor
49
Fig. 2.8. Grfica del logaritmo
| ( )| de las grficas mostradas en la Fig 2.7 50
Fig. 2.9 (a) Seal de Voz How are you, (b) Transformada de Gabor con una ventana
estrecha, (c) Transformada de Gabor con una ventana ms amplia
52
Captulo 3
Fig. 3.1 Anlisis grfico en Speech Viewer
58
Fig. 3.2 Pronunciacin de la letra E
59
Fig. 3.3 Pronunciacin de la letra I
59
Fig. 3.4 Pronunciacin de la letra A
61
Fig. 3.5 Comparacin entre el espectro original y el espectro del fonema EME
63
Fig. 3.6 Sistema de computadoras donde se implementa la invencin
65
Fig 3.7 Estructura interna de la computadora
66
Fig. 3.8 Estructura interna de un diccionario
67
104
Fig. 3.9 Estructura de un segmento de voz continua dentro de una entrada

de diccionario
68
Fig. 3.10 Mtodo de Transformada de Tiempo Triple
70
Fig. 3.11 Diagrama de flujo de la presente invencin
72
Fig. 3.12 Espectrogramas de un usuario predeterminado
73
Fig. 3.13 Comparacin de 3 diferentes tipos de espectrogramas
74
Fig. 3.14 Espectrogramas de la vocal a
75
Fig. 3.15 Espectrogramas de la segunda muestra de voz
76
Fig. 3.16 Estructura principal de un clasificador
80
Fig 3.17 Clasificacin del habla sin ruidos externos
85
Fig. 3.18 Clasificacin del habla con ruido externo de 10dB
85
Fig. 3.19 Diagrama de Bloques del mtodo para la extraccin de caractersticas de voz 87
Fig. 3.20 Diagrama esquemtico que ilustra el rbol de filtrado
89
Fig. 3.21 Relacin de frecuencias para cada uno de los niveles del rbol de anlisis
91
Fig. 3.22 Forma de onda de la palabra India.
93
Fig. 3.23 Anlisis de la Transformada de Fourier de Tiempo Corto
94
Fig. 3.24 Espectro tiempo frecuencia utilizando el anlisis de Gabor
95
Fig. 3.25 Espectrogramas de la forma de onda de la figura 3.22 empleando

(a) STFT y (b) anlisis de Gabor.
96
Fig. 3.26 Forma de onda que combina dos seales de frecuencia
99
Fig. 3.27 Distribucin Wigner Ville de la combinacin
99
Fig. 3.28 Distribucin Wigner Ville suavizada
100
Fig. 3.29 Suma de tres diferentes frecuencias.
100
Fig. 3.30 Representacin de la distribucin Wigner Ville
100
Fig. 3.31 Representacin de la Distribucin Wigner Ville suavizada
101
105
REFERENCIAS
Pginas Web:
[1] http://www.tecnun.es/asignaturas/tratamiento%20digital/tema1.pdf Visitado del da

17 de Diciembre del 2009
[2] Lozano, Jos. Edicin de Sonido I. Visitado el da 26 de Febrero del 2010.

http://www.iua.upf.es/~jlozano/audio/edicion1.html
[3] http://www.monografias.com/trabajos12/circu/circu.shtml. Visitado el da 12 de

Febrero del 2010
[4]http://exa.unne.edu.ar/depar/areas/fisica/electymagne/TEORIA/elecmagnet/induccio
n/anillo2/anillo2.htm Visitado el da 3 de marzo del 2010
Documentos PDF:
[5] Prez Iglesias Hctor. Seales y Sistemas discretos. Visitado el 1 de marzo del
2010. http://wahwah.des.udc.es/signals/senales.pdf
[6] Apuntes sobre Tiempo Frecuencia. Maestra Ingeniera Electrnica. Proporcionados

por M.C. Julio Cesar Herrera Garca.
[7] Rosa Zurera, Manuel. Tcnicas de Anlisis en Tiempo y Frecuencia. Disponible en

diciembre del 2009. http://agamenon.tsc.uah.es/Asignaturas/it/tdv/apuntes/3-Analisistiempo-frecuencia.pdf
[8] Lara Senz, Andrs. Sobre la transformacin Tiempo Frecuencia y la aplicacin

del proceso de Convolucin a la dinmica de sistemas fsicos. Visitado en Enero 2010.
Disponible en http://www.sea-acustica.es/revista/VOL38-12/02.pdf
[9] Slaney Malcolm. Auditory Toolbox: A MatLab toolbox for Auditory Modeling Work.
Visitado en Febrero 2010. Disponible en http://cobweb.ecn.purdue.edu/~malcolm/
interval/1998-010/AuditoryToolboxTechReport.pdf
106
[10] Rosado Muoz, Alfredo. Desarrollo de Tcnicas de Fibrilacin Ventricular Basadas

en Algoritmos Tiempo Frecuencia. Tesis Doctoral. Captulo 2 Las Transformadas
tiempo frecuencia. Universidad de Valencia. Visitado en Enero 2010. Disponible en:
http://www.uv.es/rosado/tesis_pdf/capitulo2.PDF
[11] Javier Duoandikoetxea. Lecciones sobre las series y transformadas de Fourier.

UNAN Managua. 2003. Visitado en Diciembre 2009. Disponible en http://www.cemat.org/cdc/Fourier.pdf
[12] Avalos Briseo, J. Benito, Reconocimiento de voz, Instituto Tecnolgico de

Aguascalientes.
Visitado
en
Marzo
2010.
Disponible
en
http://redalyc.uaemex.mx/redalyc/pdf/944/94402206.pdf
[13] J. Romero y S. Cerd. Comparacin de cuatro mtodos de anlisis de seal no

estacionaria: STFT, Wigner Ville, Transformada Wavelet y el anlisis Multiresolucin.
Universidad de Valencia. Visitado en Enero 2010. Disponible en http://www.seaacustica.es/publicaciones/4360gk005.pdf
[14] Echeverry, Julin David. Caracterizacin de seales no estacionarias empleando

distribucin Wigner Ville en el reconocimiento de zonas cerebrales. Mayo del 2006.
Universidad Politcnica de Valencia. Visitado en Febrero 2010. Disponible en
http://www.utp.edu.co/php/revistas/ScientiaEtTechnica/docsFTP/8593987-91.pdf
[15] Vuletich, Juan Manuel. Nuevas bases para el procesamiento de msica en el

dominio de tiempo frecuencia. Universidad de Buenos Aires. 2005. Visitado en
febrero 2010. Disponible en http://www.jvuletich.org/Research/TesisVuletich.pdf
[16] Cabrera, Francisco. Diseo de un detector de voz en condiciones adversas.

Universidad de Las Palmas de Gran Canaria. Visitado en Marzo 2010. Disponible en
http://w3.iec.csic.es/ursi/articulos_modernos/articulos_villaviciosaodon_2001/articulos/
308.pdf
[17] Dermody, Phillip. The use of wavelet transforms in phoneme recognition. The
University
of
Newcastle.
Visitado
en
Enero
2010.
Disponible
en
http://www.asel.udel.edu/icslp/cdrom/vol4/356/a356.pdf
107
[18] Cohen L. Time Frequency distributions A review. Visitado en Marzo 2010.

Disponible
en
http://www.coe.montana.edu/ee/rosss/Courses/EE578_Fall_2008/Papers/Time_Freque
ncy_Distributions_A_Review.pdf
[19] Teora de Wavelets. Capitulo 2. Visitado en Marzo 2010. Disponible en
http://catarina.udlap.mx/u_dl_a/tales/documentos/lem/hernandez_d_m/capitulo2.pdf
[20] Pedro Serrano, Eduardo. Introduccin a la transformada Wavelet y sus

aplicaciones al procesamiento de seales de emisin acstica. Universidad Nacional
de
General
San
Martn.
Visitado
en
Febrero
2010.
Disponible
en
http://www.cnea.edu.ar/cac/endye/glea/trabajos/serrano.pdf
[21] Seales y Sistemas. ITESO. Visitado en Enero 2010. Disponible en

http://www.desi.iteso.mx/sys/s&s/Tema1_bugarin.pdf
[35] Madan V. K., Analysis of spoken words employing Gabor Transform. BARC,
Trombay, Mumbay. Visitado el 22 de abril 2010.
http://www.isca-speech.org/archive/wslp_03/wslp_067.pdf
[36] Marir, Farir. Time frequency analysis of speech signals Smoothed Pseudo WignerVille Distribution. Makkah College of Technology, KSA. Visitado en abril 2010.
Disponible en: http://stcex.gotevot.edu.sa/NR/rdonlyres/5264CDF4-841F-477D-8C032011469BE2F1/0/218.pdf
Libros:
[22] Oppenheim, Alan V. Seales y Sistemas. Editorial Parson Education. 2 Edicin.
[23] Carmona, Ren. et al. Practical Time Frequency Analysis. Wavelet and Gabor
Transforms. Editorial AP. 1 Edicin.
[24] Rabiner, Lawrence. Fundamentals of Speech Recognition. Prentice Hall

International. 1993. 2 edicin.
108
[25] Gonzles, Patricia. Reconocimiento de voz mediante el uso de Matlab. Tesis.

2009. Instituto Tecnolgico de Estudios Superiores de Zamora.
[26] Mallat, A Wavelet Tour of signal processing, Segunda Edicin. San Diego:
Academic Press, 1999.
[27] I. Daubechies, Ten Lectures on Wavelet. Primera Edicin. Philadelphia: SIAM,

1992.
[28] H. G. Stark, Wavelets and Signal Processing: An application-Based Introduction,

Primera Edicin, Berln: Springer, 2005.
[29] C. Burrus, R.A. Gopinath y H, Guo, Introduction to Wavelets and Wavelets

Transforms a Primer. New Jersey. Prentice Hall.
Revistas:
[30] Potaminos Alexandros. Time Frequency Distributions for Automatic Speech

Recognition. IEEE Transactions on speech and audio processing. Vol. 9. No. 3. Marzo
2001.
Patentes:
[31] Procedimiento y dispositivo de clasificacin de las seales del habla. Pat. ES

21659/33 T3. Inventor, Joachim Stegmann. 1 de Abril del 2002. Disponible en
http://invenes.oepm.es/InvenesWeb/faces/visualizadorTabs.jsp?idrefe=e96104213
[32] Method for extracting voice signal features and related voice recognition system.
Pat. US 2003/0191640 A1. Inventores: Roberto Gemello y Franco Mana. 9 de Octubre
del
2003.
Disponible
en
http://v3.espacenet.com/publicationDetails/originalDocument?FT=D&date=19981020&
DB=EPODOC&locale=en_EP&CC=US&NR=5826232A&KC=A
[33]
Speech
Recognition
System
Using
Spectrogram
Analysis.
Pat.
US
2002/0128834 A1. Inventores: Vitaliy Fain y Samuel Fain. 12 de Septiembre del 2002.
Disponible
en
109
http://v3.espacenet.com/publicationDetails/originalDocument?CC=US&NR=200212883
4A1&KC=A1&FT=D&date=20020912&DB=EPODOC&locale=en_EP
[34] Methods of identification using voice sound analysis. Pat. US 2009/0326942 A1.
Inventor:
Sean
Fulop.
31
de
Diciembre
del
2009.
Disponible
en
http://v3.espacenet.com/publicationDetails/originalDocument?CC=US&NR=200932694
2A1&KC=A1&FT=D&date=20091231&DB=EPODOC&locale=en_EP
110

Aplicaciones de Las Representaciones Tiempo Frecuencia en El Procesamiento de Voz

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Aplicaciones de Las Representaciones Tiempo Frecuencia en El Procesamiento de Voz

Загружено:

Авторское право:

Доступные форматы

SUBSECRETARA DE EDUCACIN SUPERIOR

DIRECCIN GENERAL DE EDUCACIN SUPERIOR

INSTITUTO TECNOLGICO DE MORELIA

QUE PARA OBTENER EL TTULO DE:

ABRIL DEL 2010

A ti mam, por demostrarme la fuerza y el nimo incansable para hacer

A ustedes Nathaly y Sofi, por la confianza y el apoyo que siempre he tenido de

A mis amigos y compaeros de estudio, por el hecho de estar siempre cerca,

CAPTULO 1 CONCEPTOS DE PROCESAMIENTO DE SEALES

1.2 SISTEMAS LINEALES INVARIANTES EN EL TIEMPO

1.3 LA TRANSFORMADA CONTINUA DE FOURIER

1.4 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO

CAPTULO 2 CARACTERIZACIN EN TIEMPO Y FRECUENCIA

2.2 TRANSFORMADA DE FOURIER DE TIEMPO CORTO

2.3 DISTRIBUCIN WIGNER VILLE

2.4 TRANSFORMADA DE GABOR

2.5 TRANSFORMADA WAVELET

APLICACIONES DE PROCESAMIENTO DE VOZ

3.1 APLICACIONES CON MATLAB Y CSLU TOOLKIT

3.2 APLICACIONES UTILIZANDO ESPECTROGRAMAS

3.3 APLICACIONES USANDO WAVELETS

En este trabajo de investigacin se vern las principales funciones matemticas

El objetivo general de esta monografa consiste en presentar de una manera

Tambin podemos delimitar algunos objetivos particulares:

Explicar las nociones bsicas acerca del procesamiento de seales.

Explicar y analizar la Transformada, continua y discreta, de Fourier. En

Hablar sobre la caracterizacin Tiempo Frecuencia y conocer las

Mostrar algunas de las aplicaciones actuales de las representaciones

Los avances tecnolgicos en el mundo actual crecen de una manera

En este tiempo en el que la carrera tecnolgica avanza cada vez a pasos

Todas estas aplicaciones se basan en un principio: poder procesar la

En esta investigacin se tomarn los temas acerca de la relacin tiempo

Captulo 1. Conceptos de Procesamiento de Seales

CAPTULO 1. CONCEPTOS DE PROCESAMIENTO DE SEALES

Los conceptos de seales [22], surgen de una gran variedad de eventos. La

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

Captulo 1. Conceptos de Procesamiento de Seales

1.1.1 Clasificacin de las seales [21]

Existen cuatro tipos de seales:

Clasificacin de seales de acuerdo a su duracin:

Clasificacin de seales basadas en simetras

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

Captulo 1. Conceptos de Procesamiento de Seales

Clasificacin de seales basadas en Energa y Potencia

1.1.2 Seales Continuas y Discretas

En las seales continuas la variable independiente tiene un valor determinado

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

Captulo 1. Conceptos de Procesamiento de Seales

Fig. 1.3 Perfil tpico del tiempo de carga de un capacitor.

En las seales discretas la variable independiente solamente se encuentra

Para diferencias a las seales continuas de las discretas en una grfica, se

1.1.3 Sistemas Discretos

Un sistema es una transformacin aplicada a una seal de entrada x) para

Captulo 1. Conceptos de Procesamiento de Seales

sistemas discretos son aquellos que trabajan con seales discretas. En la

Fig. 1.4 Diagrama de Bloques. Sistema Discreto [22].

1.2 SISTEMAS LINEALES INVARIANTES EN EL TIEMPO (LIT)

Las propiedades bsicas de los sistemas de seales, como la linealidad y la

1.2.1 LIT DISCRETOS (SUMA DE CONVOLUCIN)

La idea de visualizar cmo el impulso unitario discreto se puede utilizar para

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

Captulo 1. Conceptos de Procesamiento de Seales

Suponiendo un sistema LIT cualquiera con las propiedades citadas, como se

Por la propiedad de la linealidad se obtiene: