Вы находитесь на странице: 1из 7

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/313145462

Aplicación del Cepstrum en la clínica vocal

Article · January 2008

CITATIONS READS

6 19

3 authors, including:

Patricia Farías Jorge Gurlekian


University of the Argentine Social Museum University of Buenos Aires
3 PUBLICATIONS 6 CITATIONS 73 PUBLICATIONS 305 CITATIONS

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

FORENSIA: a speaker identification system for the forensic area View project

Aromo: Argentine Spanish TTS System View project

All content following this page was uploaded by Patricia Farías on 14 October 2017.

The user has requested enhancement of the downloaded file.


Cecconello, L., Farías, P., Gurlekian, J.: Aplicación del Cepstrum en la clínica vocal. Revista de la
Federación Argentina de Sociedades de Otorrinolaringología, Edición Especial, 30º Congreso Argentino
de Otorrinolaringología, 2008, Año 15-Nº 1:12-14

APLICACIÓN DEL CEPSTRUM EN LA CLINICA VOCAL

Lic. Luis Cecconello, Dra Patricia Farías, Ing. Jorge Gurlekian

-Antecedentes:

Mediante el análisis acústico se puede obtener una serie de parámetros indicadores


de la presencia de alteración vocal; entre ellos el Jitter y Shimmer son los más
populares.
El Jitter se altera principalmente con la falta de control de vibración de los pliegues
vocales como sucede en las disfonías neurológicas y el Shimmer se altera
fundamentalmente en situaciones de reducción de la resistencia glótica como sucede en
parálisis laríngeas y también en lesiones de masa (Behlau, 2004).
El cálculo de algunos parámetros acústicos en voces disfónicas como el jitter suelen
crear controversias, debido a la combinación de la aperiodicidad y ruido. Por ello es
necesario contar con parámetros alternativos para la medición de la señal acústica.
El cálculo del Cepstrum resulta en 1) la determinación del pico de mayor amplitud
en una escala temporal, lo que permite calcular el valor de la frecuencia fundamental y
2) la amplitud del pico de Cepstrum da información del grado de periodicidad de la
señal de más baja frecuencia en relación a otros componentes periódicos o ruidosos
presentes.
Según Gurlekian (2002), el Cepstrum es un método muy confiable, que se
fundamenta en el procesamiento por filtrado (homomórfico), siendo también utilizado
para el cálculo de F0.
Según Jackson Menaldi (2002), el método cepstrum consiste en aplicar dos
transformadas de Fourier al sonido. La FFT del espectro se llama Transformada de
Fourier inversa y su resultado es el cepstrum. Este permite determinar la frecuencia
fundamental a partir de la periodicidad del componente armónico de un sonido,
representado por el pico cepstral de la región alta del cepstrum.
Mediante el Cepstrum es posible identificar características que permiten valorar la
calidad de la voz. La riqueza espectral puede cuantificarse por medio de la amplitud y
anchura de la componente cepstral correspondiente al pitch. Si se presenta un pico con
una amplitud considerable, está señalando la presencia de energía en dicho componente
armónico, siendo una característica de voces de gran calidad vocal. También una
anchura reducida del pico cepstral, indica la alta estabilidad de la frecuencia de pitch
(Alonso et al, 2006).
Dejonckere PH (1998), en una investigación realizada en 18 sujetos normales y 68
pacientes disfónicos encontró que la magnitud del pico cepstral resultó sensible a la
aperiodicidad de vibración de los pliegues vocales, así como al insuficiente cierre de los
pliegues vocales y al excesivo escape de aire turbulento.

-Objetivo: Obtener valores de normalidad de la amplitud del pico de Cepstrum


-Lugar de aplicación: Sanatorio del Salvador-Córdoba-Argentina y Hospital Británico-
Buenos Aires-Argentina

-Diseño: Estudio experimental de casos y técnicas

-Población: 169 personas, con edad entre 18 y 64 años, siendo 99 de sexo femenino y
70 de sexo masculino. 51 con calidad vocal normal y 118 con calidad vocal alterada.

-Método:

Se analizó subjetivamente la calidad vocal de 169 personas, a través de lo cual se


dividió en dos grupos: Un grupo con calidad vocal normal y un grupo con calidad vocal
alterada.
Para la grabación de las voces se utilizó un micrófono dinámico colocado a 10 cm
de la boca de los sujetos y en un grado de angulación de 45º. Se utilizó un
preamplificador marca Fast Track, el cual se conecta vía USB en la PC. Las grabaciones
fueron realizadas en una frecuencia de muestreo de 16000 Hz y en una sala sin
tratamiento acústico pero sin ruido excesivo
Se grabó la vocal /a/ de forma continua en una frecuencia e intensidad espontánea de
parte del sujeto.
A través del software Anagraf se calcularon los siguientes parámetros: jitter,
shimmer, Relación armónico-Ruido (HNR) y Cepstrum.
Jitter es la variabilidad ciclo a ciclo de la frecuencia fundamental. La unidad
utilizada es un porcentaje.
Shimmer es la variabilidad ciclo a ciclo de la amplitud. La unidad utilizada es un
porcentaje.
Relación armónico-Ruido (HNR) mide la relación de energía en dB que tiene el
componente periódico de la señal con respecto a los componentes ruidosos.
Amplitud del pico de Cepstrum mide el grado de periodicidad de la señal de más
baja frecuencia en relación a otros componentes periódicos o ruidosos presentes
(Rabiner and Schafer, 1978).

Para el análisis de los resultados fueron considerados los valores de normalidad del
programa Anagraf que son: Jitter menor al 1%, Shimmer menor al 0,5%, HNR mayor a
5dB.
Para la medición de Jitter, Shimmer y HNR, se seleccionó el mayor segmento
posible de voz, sin tomar en cuenta los sectores inicial y final de la emisión.
Para lograr mayor confiabilidad en la medición del Jitter, en el LIS (Laboratorio de
Investigaciones sensoriales) se propuso realizar una comparación entre el método
espectral y el método temporal de F0 (Frecuencia fundamental); si el valor de F0 por
ambos métodos es exactamente el mismo se dice que el jitter es “confiable”, por el
contrario, si los valores son diferentes ,se dice que el jitter es “no confiable”; por lo
tanto, para este trabajo se buscó medir el mayor segmento posible de voz en el que el
valor de F0 medido con el método espectral y temporal fuese el mismo y de este modo
considerar el valor de jitter obtenido como “confiable”.
La medición del Cepstrum se obtiene en un instante determinado, por lo cual se
consideró un instante del sector medio de la emisión donde suele haber mayor
estabilidad, sin embargo, para evitar la aleatoriedad del valor obtenido, se midieron
varios puntos continuos y se tomó un valor que se repitiese reiteradamente.
-Resultados:

La tabla 1 muestra la distribución numérica y porcentual de los dos grupos


estudiados, el grupo con calidad vocal normal y el grupo con calidad vocal alterada, de
acuerdo al sexo.
Tabla 1. Distribución numérica y porcentual
de la muestra de acuerdo a la calidad vocal y sexo
Calidad Normal Alterada
vocal N % N %
Masculino 25 49 45 38
Femenino 26 51 73 62
Total 51 100 118 100

La tabla 2 presenta la media y la desviación estándar (DE) de Jitter (%), Shimmer


(%), HNR (dB) y Cepstrum de los dos grupos estudiados.
Puede observarse que la media de Jitter en el grupo de calidad vocal normal fue de
0,78 %, que se encuentra dentro de los valores de normalidad. En el grupo con calidad
vocal alterado se obtuvo una media de 4,07%.
La media de Shimmer para el grupo de calidad normal fue de 0,25, ubicándose en
valores de normalidad y la media en el grupo de calidad alterada fue de 0,64, con una
desviación estándar de 1,11 (superior al valor medio de shimmer) lo que demuestra la
dispersión de los datos.
La media de la Relación armónico-Ruido (HNR) en el grupo de calidad normal fue
de 5,29 y en el grupo de calidad alterada 4,49 con una desviación estándar de 20,04, en
este caso se puede observar un valor de desviación estándar mucho más alto que el
propio valor de HNR debido a la dispersión de los datos. También debe ser considerado
en este caso que si el jitter es alto, la medida de HNR no es válida (Yumoto et al, 1982).
La media de la Amplitud del pico de Cepstrum en el grupo de calidad vocal normal
fue de 0,46 y la media del grupo de calidad vocal alterada 0,20.

En los gráficos 1, 2, 3 y 4 se presentan los gráficos de caja de Jitter, Shimmer, HNR


y Cepstrum respectivamente, para los dos grupos estudiados.

Tabla 2. Media y desviación estándar de Jitter, Shimmer,


HNR y Cepstrum en los dos grupos estudiados.
Parámetro Calidad Vocal
Normal Alterada
Jitter (%)
Media 0,78 4,07
DE 0,25 3,73
Shimmer (%)
Media 0,25 0,64
DE 0,09 1,11
HNR (dB)
Media 5,29 4,49
DE 1,12 20,04
Cepstrum
Media 0,46 0,20
DE 0,10 0,06
25

20

JITTER (%)
15

10

0
Normal Alterada

CALIDAD VOCAL

Gráfico 1. Gráfico de caja de Jitter para los dos grupos estudiados


(Calidad vocal normal y calidad vocal alterada)

12

10
SHIMMER (%)

0
Normal Alterada

CALIDAD VOCAL

Gráfico 2. Gráfico de caja de Shimmer para los dos grupos estudiados


(Calidad vocal normal y calidad vocal alterada)

25

20

15
HNR (dB)

10

-5
Normal Alterada

CALIDAD VOCAL

Gráfico 3. Gráfico de caja de HNR para los dos grupos estudiados


(Calidad vocal normal y calidad vocal alterada)
0,8
0,7
0,6

CEPSTRUM
0,5
0,4
0,3
0,2
0,1
0
Normal Alterada

CALIDAD VOCAL

Gráfico 4. Gráfico de caja de Cepstrum para los dos grupos estudiados


(Calidad vocal normal y calidad vocal alterada)

-Conclusiones:

1. Los parámetros Jitter, Shimmer y la medida de la Amplitud del pico de Cepstrum


demostraron ser confiables a la hora de distinguir voces con calidad vocal normal de
voces con calidad vocal alterada.
2. La relación armónico ruido (HNR) resultó confiable para medir voces periódicas
pero en el caso de la medición de voces aperiódicas, tiende a dar valores variables y
poco confiables por la alteración del Jitter.
3. Las personas con calidad vocal normal presentaron una media en la Amplitud de
Cepstrum de 0,46 y las personas con calidad vocal aterada de 0,20
4. La medida de Cepstrum demostró ser un método eficaz para distinguir voces
periódicas de voces aperiódicas y que valorado de forma conjunta con otros métodos
como el Jitter, Shimmer y HNR incrementa el nivel de confiabilidad en la medición de
la señal acústica.

-Bibliografía:

Alonso, J., Ferrer, M., Leon, J., Travieso, C.: Cuantificación de la calidad de la voz
para su evaluación clínica por medio del análisis acústico. IV Jornadas de Tecnología
del habla, Zaragoza, 8 al 10 de noviembre de 2006.

Behlau, M.: Voz O Livro do Especialista. Volume I. Ed. Revinter, Rio de Janeiro, 2004.

Dejonckere, PH.: Cepstral voice analysis: link with perception and stroboscopy.Rev.
Laryngol Otol Rhinol (Bord). 1998; 119 (4):245-6.

Gurlekian, J.A. Laboratorio de procesamiento del habla. en: Jackson Menaldi, C. La


voz patológica (CD). Ed. Médica Panamericana, Buenos Aires, 2002.

Jackson Menaldi, M.C.: La voz patológica. Ed. Panamericana. Buenos Aires,


Argentina, 2002.

Rabinner, L.R. and Schafer, R.W.: Digital Signal Processing of Speech Signals,
Prentice Hall, Inc. Englewood Cliffs, New Jersey. 1978.
Yumoto, E., Gould, W.J., Baer, T.: Harmonics-to-Noise Ratio as an index of the
degree of hoarseness, The Journal Acoustical Society of America1982; Volume 71,
(6):1544-1550.

View publication stats

Вам также может понравиться