Вы находитесь на странице: 1из 33

SEGUNDA UNIDAD: PROCESADO DE LA SEAL

DE VOZ
HERRAMIENTAS BSICAS DE ANLISIS DE VOZ
Y AUDIO
III. CUESTIONARIO PREVIO
a) Cul es la diferencia entre energa y energa localizada
que duracin temporal debe de poseer la ventana para
que se pueda utilizar en el tratamiento de las seales de
voz?
La energa de una seal se halla en todo el intervalo de tiempo
que dura, la energa localizada se halla en un solo marco de la
seal.
Idealmente la longitud de la ventana tiene que estar entre 20 y
30 ms.
b) Qu es la funcin de Autocorrelacin, que aplicaciones
tiene?
Est definida como la correlacin cruzada de una seal consigo
misma. La funcin de autocorrelacin resulta de gran utilidad
para encontrar patrones repetitivos dentro de una seal, como
por ejemplo, la periodicidad de una seal enmascarada bajo el
ruido o para identificar la frecuencia fundamental de una seal
que no contiene dicha componente, pero aparecen numerosas
frecuencias armnicas de esta.
c) Grafique y encuentre su representacin matemtica de
las siguientes ventanas: Bartlett (o triangular),
Blackman, Boxcar (o rectangular), Hamming, Hanning y
Kaiser?

V. ACTIVIDADES
Actividad 1: ENVENTANADO

En MATLAB implemente mediante un archivo M las


siguientes ventanas: Bartlett (o triangular), Blackman,
Boxcar (o rectangular), Hamming, Hanning y Kaiser. Use
comandos como Hann, y para tener una idea del
resultado use el comando wvtool.

Implementacin de las ventanas, todas con una longitud de 160


puntos, lo cual significa 20 ms si usamos una frecuencia de muestreo
de 8000 m/s

Usando el comando wvtool nos da las siguientes grficas:

Dibuje sobre una misma figura las distintas ventanas en


el dominio temporal y observe los distintos perfiles.
Haga lo mismo que en el punto anterior pero en el
dominio de la frecuencia (utilice una fft cuya longitud
sea potencia de 2).
Dibujo de las distintas ventanas en el dominio temporal

Dibujo de las distintas ventanas en el dominio de la frecuencia

Preguntas:
a. Cul es la ventana que introduce menor distorsin en
este dominio temporal?
La ventana con menor distorsin en el dominio temporal es la
ventana rectangular.
b. Cul es el inconveniente de la ventana rectangular en
este dominio?
El inconveniente de la ventana rectangular es que en el dominio
de la frecuencia su equivalente es una funcin Sinc que
contamina las bandas laterales de frecuencia al momento de
enventanar nuestra seal de voz

Actividad 2: ENERGA LOCALIZADA

Grabe en Matlab una seal de voz ejemploVoz.wav de


una duracin de 2 segundos.

Adquisicin
de
muestras/segundo

audio.

Duracin: 2 segundos

Frecuencia

de

muestreo

8000

Lectura del archivo grabado

Determine su energa en cada instante utilizando


ventanas de Hamming de igual longitud; utilice para ello
una funcin llamada energa.
Primero usamos una longitud de ventana de Hamming de 160
puntos (20 ms):
La funcin llamada energa es la siguiente:

Dibujo de la seal de voz y la energa en el dominio del tiempo:

Cambie la longitud de la ventana y compare la energa


encontrada con el anterior paso.
Longitud de la ventana de Hamming de 64 puntos (8 ms)

Longitud de la ventana de Hamming de 480 puntos (60 ms):

Cree un archivo M que clasifique la seal de voz en tres


niveles, segn la cantidad de energa que poseen cada
trama de la seal los niveles se clasificarn como
sonoro, sordo y ruido.

Preguntas:
a. Qu ocurre si la ventana es demasiado grande o demasiado
pequea?
Si la ventana tiene una longitud mayor en tiempo, entonces la
energa que visualizamos tiene una magnitud mucho mayor que
nuestra seal de voz en el dominio del tiempo.
Si la ventana tiene una longitud menor en tiempo, entonces la
energa que visualizamos tiene una magnitud casi igual a
nuestra seal de voz en dominio del tiempo.
b. Qu tipo de ventana utilizara si quisiera detectar cambios
bruscos y de corta duracin en la seal?
Es recomendable usar la ventana de Hamming de longitud
entre 20 y 30 ms porque ofrece una mejor apreciacin de la
energa en los sonidos sonoros y sordos.

Actividad
3. ESTIMACIN DE LA FRECUENCIA FUNDAMENTAL

Grabe
en
MATLAB
un
fichero
llamado
ejemplosonoro.wav que corresponder a una trama
sonora de la seal de voz.
Seal de ejemplosonoro.wav en el dominio del tiempo:

Utilice la funcin stcorr para calcular su autocorrelacin


localizada (tenga en cuenta que la longitud de la
ventana debe ser lo suficientemente grande como para
abarcar varios periodos de la seal de voz en los tramos
sonoros; de lo contrario, la periodicidad de la seal no se
reflejar en la autocorrelacin. La funcin Rn (k) es
simtrica y por tanto slo se muestra la parte positiva
de la misma. Observe cmo cuando la seal de entrada
es peridica, la funcin de autocorrelacin presenta
picos
separados
precisamente
igual
al
periodo
fundamental.

La funcin stcorr es la siguiente:

Encuentre la frecuencia fundamental de su voz, a partir


de la funcin de Autocorrelacin y un mapeo, espacio de
muestreo-temporal.
Autocorrelacin de un tramo sonoro

Hay aproximadamente entre 10 y 12 muestras entre los picos.


Eso significa que la frecuencia fundamental de mi voz est entre
666.7 y 800 Hz

Repita ahora el ejercicio anterior con un tramo sordo


grabado en el fichero ejemploSordo.wav; observe que
la autocorrelacin decae muy rpidamente.

Autocorrelacin de un tramo sordo

Preguntas:
a. Qu frecuencia posee el tono fundamental de su voz,
comprelo con el de su compaero?
Existen aproximadamente entre 10 y 12 muestras entre los
picos, lo cual representa el periodo de la frecuencia
fundamental.
Si tomo 10 muestras entonces el periodo sera 1.25x10^-3
segundos.
Si tomo 12 muestras entonces el periodo sera 1.5x10^-3
segundos.
Eso significa que la frecuencia fundamental de mi voz est
entre 666.7 Hz y 800 Hz.

b. Qu ocurre cuando se calcula la autocorrelacin de una


seal de ruido?

La autocorrelacin de la seal de ruido no tiene un periodo


fundamental.

Actividad 4: TRANSFORMADA DE FOURIER


LOCALIZADA Y ESPECTROGRAMA

Utilice la funcin stft para obtener la transformada de


Fourier
localizada
de
la
seal
de
voz
ejemploSonoro.wav. Observe los efectos de utilizar
ventanas de distintos tipos y longitudes.

Utilizando ventana Hamming de 20 ms

Utilizando ventana Hamming de 8 ms

Utilizando ventana Hamming de 60 ms

Utilizando ventana Bartlett o triangular de 20 ms:

Utilizando ventana Bartlett o triangular de 8 ms:

Utilizando ventana Bartlett o triangular de 60 ms:

Utilizando ventana Boxcar o rectangular de 20 ms

Utilizando ventana Boxcar o rectangular de 8 ms

Utilizando ventana Boxcar o rectangular de 60 ms

Pregunta:
a. Qu efecto tiene el utilizar los diferentes tipos de
ventanas, a su parecer cual sera la ventana ms ptima,
compare los resultados de las diferentes ventanas?
Si el tamao de ventana es demasiado grande no podremos
analizar el espectro de un fonema en concreto. Si es demasiado
pequeo no tienes la suficiente informacin para determinar las
caractersticas del fonema. Con una ventana rectangular
tenemos una atenuacin menor en las frecuencias que no
forman parte de los formantes de la seal, lo que dificulta el
clculo de la frecuencia fundamental y de los propios
formantes. Es por ello que se recomienda usar la ventana de
Hamming con una longitud de entre 20 y 30 ms.

Actividad 5: EL ESPECTROGRAMA

Utilice la funcin spectrogram para obtener un


espectrograma de banda ancha y otro de banda estrecha
de la seal de voz ejemploSonoro.wav. Puede obtener
una
sensacin
de
mayor
continuidad
en
el
espectrograma aumentando el nmero de puntos de la
fft calculada y el solapamiento temporal de las sucesivas
ventanas de anlisis. Sin embargo, tenga en cuenta que
no obtendr mayor resolucin, ya que se trata de una
mera interpolacin.

En anlisis de la voz a los espectrogramas de Fourier que usan


ventanas de corta duracin se les denomina Espectrogramas de
Banda Ancha, y a los que utilizan ventanas de mayor duracion se les
denomina Espectrogramas de Banda Estrecha

Espectrograma de banda ancha usando ventana de Hamming de 8


ms

Espectrograma de banda estrecha usando ventana de Hamming de


60 ms

Actividad 6: CRUCES POR CERO (ZRC)

En este sentido proponemos que se mida la taza de cruces por


cero de seales artificiales segn los dos casos siguientes:
Caso A: una seal que sea un solo tono: y=cos(2*pi*(x)/25);
Caso B: una seal compuesta por la suma de dos tonos (uno de
baja frecuencia y otro de alta frecuencia)
y=a1*cos(2*pi*(x1)/25) + a2*cos(2*pi*(x1)/4);

Tasa cruces por cero de la Seal de un solo Tono:

Cruces por cero de la Seal de la suma de dos Tonos:

Medir la taza de cruces por cero por tramas ya sean sonoras,


sordas y ruido.
Tasa promedio de cruces por cero del ejemplo sonoro

Tasa promedio de cruces por cero del ejemplo sordo

Tasa promedio de cruces por cero del ejemplo ruido

Вам также может понравиться