Академический Документы
Профессиональный Документы
Культура Документы
However, there is no standardization of tech- considering both cases as false positives or false
nique methodology and considerable variability is negatives.
observed about which acoustic parameters must be Results demonstrate that the reliability of the
measured. Furthermore, product documentation values obtained by both programs was significantly
often makes it difficult to know how a particular reduced with the increase of irregularities in the
system actually produces its measurements. Little signal. Parameters related with shimmer were more
formal information is available about the actual reliable than parameters related with jitter.
comparability of measures from different analysis For the normal data, r Pearson correlations
packages. ranged from .72 (ANAGRAF) to .87 (PRAAT) for
In this study, acoustic analysis was performed measures of jitter, with lower correlations among
using two different programs: PRAAT and ANA- measures of shimmer .27 (ANAGRAF) to .80
GRAF. Both systems are computer programs (PRAAT) and noise measures .55 (ANAGRAF) to
commonly used in Latin America, in clinical and .87 (PRAAT). The large differences found between
research to detect and characterize speech and voice the measurements from the systems imply that the
disorders. PRAAT, was designed by Boersma and accuracy of the measurements are questionable,
Weenink (2009) and ANAGRAF is a national soft- especially for severely pathological samples.
ware designed by Gurlekian (1997). Therefore, it seems important to establish
The purpose of this work was to compare the normal and pathological voice standards norms for
results obtained by a set of acoustic parameters, Spanish in Buenos Aires to take a step in the
many of which are defined similarly in both validity and reliability of the professional practices.
programs, and analyze whether it can distinguish Future research be aimed at establishing differ-
clinically between normal and pathological voices ences between vowels in addition to sex and
within different severity levels. system used.
A total of 776 voice samples corresponding to
4 repetitions of the vowel /a/ of 194 speakers of Key words: Acoustic analysis; Normal and
Spanish in Buenos Aires were measured using the pathological voice analysis; PRAAT; ANAGRAF.
available parameters such as: the fundamental
frequency, jitter, shimmer, and noise-to harmonic
ratio. The LilliefordsTest, with a significance level
of 5%, was used to verify the normal distribution of
the results of each measurement. The parameters
with normal distribution had their means compared
to the standard measurements proposed by the INTRODUCCIN
program using the t test (significance level of 5%).
General results separated by sex are reported. La voz humana constituye el medio ms
The findings of analyzed voice samples are showed rpido y sencillo para comunicarse. Con el
by definitions for mean, standard deviation, and desarrollo de las tecnologas en telecomuni-
thresholds of normal for each parameter, which caciones ha aumentado considerablemente
helps the clinician to immediately assess the el uso de la voz as como tambin se han in-
findings for a particular patient. The test-retest crementado los desrdenes vocales, que ocu-
reliability in each pair of measures was calculated. rren en un 3 a 9% de la poblacin.
For both programs the results show similar Desafortunadamente, a pesar de la po-
values of fundamental frequency (F0). However, tencia con la que se pueden computar los da-
the values of jitter, shimmer and harmonic-to-noise tos, no parece ser completamente posible
ratio (HNR) were significantly lower measured by analizar la voz humana objetivamente y co-
PRAAT, and higher using ANAGRAF in relation nocer ms profundamente cules son los
which the default results proposed by each system. procesos que gobiernan la produccin de la
The empirical evidence shows that if followed the voz. Aunque las tcnicas modernas pueden
default values and thresholds of each system, the analizar la voz, an existen temas conflicti-
diagnostic accuracy might be questioned by vos e irresueltos.
Cuando se intenta detectar y caracterizar Kreiman, Gerratt, Dauer & Berke, 1993;
las voces patolgicas en la clnica, el obje- Boersma, 2009; Burris, 2011; Godino-Llo-
tivo es documentar sus cambios signifi- rente, Osma-Ruiz, Saenz-Lechon, Cobeta-
cativos, es decir, aquellos que no resulten Marco, Gonzalez-Herranz & Ramirez-Cal-
despreciables ni producto del azar. Estos vo, 2008; Oguz, Kilic & Safak, 2011) que
cambios pueden documentarse a travs de la mostraron la existencia de variaciones en la
evaluacin perceptual visual y/o auditiva y precisin con la que los diferentes progra-
el anlisis acstico de la seal. La evalua- mas determinan el perodo y la amplitud de
cin perceptual visual identifica las pato- una seal vocal (estrategias de voicing). Los
logas larngeas mediante la observacin valores no son exactos ni comparables entre
directa de las cuerdas vocales (fibrolarin- s, aunque algunos estudios establecieron
goscopa, videoestroboscopa larngea, etc.). relaciones entre medidas (Boersma, 2009;
Este tipo de exploracin subjetiva tiene ml- Deliyskiy & Boersma, 1993).
tiples desventajas, entre las que se encuen- Este artculo propone describir, analizar y
tran su alto costo, la duracin de la propia discutir los valores de las medidas acsticas
exploracin y el hecho de tratarse de tcni- calculadas por dos sistemas de anlisis obje-
cas invasivas. tivos y muy conocidos, uno nacional y otro
El anlisis perceptual auditivo est sien- extranjero, como son ANAGRAF (Gurlekian,
do revisado y cuestionado actualmente en la 1997, 2001) y PRAAT (Boersma, 2009).
literatura universal. La seleccin y la defi- Especficamente, el objetivo fue estudiar
nicin de escalas perceptuales auditivas han en hablantes del espaol de Buenos Aires, los
sido controvertidas y no siempre comunes a valores de tendencia central y dispersin que
todos los especialistas en voz. asumen voces normales y patolgicas medi-
En este contexto, el uso de las medicio- dos con ambos sistemas e interpretar su
nes acsticas como estudio de diagnstico ajuste con los valores estndares propuestos
complementario de voces patolgicas en el por defecto por los mismos programas. Fi-
mbito clnico se ha incrementado hasta nalmente, se pretende establecer valores
convertirse en rutinas. El anlisis acstico guas, que constituyan un aporte a la prctica
ofrece ventajas ya conocidas, no es costoso, clnica diaria, para la voz normal y patol-
es fcil de usar y no es invasivo. El mayor gica segn su grado de severidad, conside-
problema del uso de medidas acsticas es la rando la confiabilidad propia de cada medi-
interpretacin de las mismas. Al utilizar cin.
mtodos de anlisis acstico se miden de
forma computarizada las propiedades espe-
cficas de una forma de onda de seal de MTODO
voz, semejante a la producida por el pa-
ciente, pero modelada por una teora. La MATERIALES Y PROCEDIMIENTO
aplicacin de los diferentes mtodos exige
entender y visibilizar los principios que los Para el anlisis acstico lineal tradicio-
operan. Segn Baken y Orlikoff (2000), se nal se utilizaron las vocales /a/ del espaol
ha sido muy condescendiente y no se han de Buenos Aires registradas en la Base de
cuestionado los procedimientos o los su- Datos de Alteraciones de la Voz y el Habla
puestos, indocumentados muchas veces, en (Elisei, 2011) integrada por las emisiones de
los que se basan los sistemas de anlisis que 66 hablantes normales (H) y 128 hablantes
se compran y se utilizan. Estos autores su- con patologa vocal (P).
gieren ser ms sofisticados y ms escp- Se analizaron 194 sujetos hablantes del
ticos en favor de un diagnstico ms pre- Espaol de Buenos Aires, de los cuales 78
ciso. (40.2%) eran hombres y 116 (59.8%), mu-
Con este propsito se realizaron compa- jeres. La media de edad fue igual a 36.35
raciones entre sistemas (Bielamowicz, aos con una desviacin estndar de 16.059.
Las voces de individuos normales pertene- muestras se editaron a travs del programa
cen a 33 hombres y 33 mujeres, con edades Sound Forge Versin 8.0b. Slo el cuerpo de
promedio de 27.38 7.9 y 26.78 7.9 aos, la seal se utiliz para el anlisis acstico, lo
respectivamente (se indica el valor medio que se realiz manualmente. La edicin de
el desvo estndar). El conjunto de voces pa- cada sonido se realiz tomando el cuerpo de
tolgicas contiene muestras de 45 hablantes la emisin y desechando el ataque y la fila-
masculinos y 83 femeninos. El promedio de tura de cada muestra.
edad en este caso fue de 45.88 22.02 y Para analizar las seales voclicas se em-
38.31 15.68 aos para el grupo de hablan- ple la funcionalidad del Voice Report de
tes masculinos y femeninos, respectiva- PRAAT Doing Phonetics by Computer, ver-
mente. sin 4.6.06 y de ANAGRAF versin V09.10
Los diagnsticos etiolgicos presentes en con la funcin de reporte desarrollado ad-
la base de datos son variados: lesiones es- hoc en el Laboratorio de Investigaciones
tructurales mnimas, congestin por reflujo Sensoriales para analizar estos datos. Se mi-
gastroesofgico, papilomatosis, granulomas, dieron y analizaron un total de 25 medicio-
hiperfuncin, hiperplasia, queratosis, edema nes acsticas lineales tradicionales. Una
de cuerdas vocales, plipos cordales, fona- ventaja comparativa de PRAAT es que per-
cin ventricular, tejido de cicatrizacin, tem- mite a travs de los scripts, realizar una se-
blor vocal, estenosis larngeas y parlisis cuencia de comandos para agilizar el anli-
cordales, entre otras. sis de muestras.
El corpus empleado para este estudio in-
cluy 2.995 muestras vocales correspon-
dientes a tres repeticiones de la vocal /a/ del
Espaol de Buenos Aires, ms una emisin RESULTADOS
sostenida durante el tiempo mximo fona-
torio de cada sujeto. Los resultados comparativos se agrupan
Previo al registro de sus voces, los parti- en dos secciones. La primera se refiere al es-
cipantes respondieron a un breve cuestiona- tudio de los hablantes con voces normales en
rio relacionado con factores de riesgo. Se tanto se describen los valores de las medidas
instruy a los participantes para que pro- acsticas para cada sistema y su relacin
nunciaran en tres oportunidades la vocal /a/ con los valores umbrales o puntos de corte
de manera sostenida (tiempo estimado: de 3 estndares configurados por defecto.
a 5 segundos), a una intensidad y frecuencia La segunda seccin incluye en el anlisis
espontneas. de la poblacin de hablantes con voces pa-
Las emisiones fueron grabadas digital- tolgicas y describe, distinguiendo cada sis-
mente en una computadora de escritorio uti- tema, la confiabilidad de las medidas en fun-
lizando una placa de sonido externa USB cin del grado de severidad.
marca M-Audio Firewire modelo 1410. Se
utiliz un micrfono AGK D770, tipo din-
mico unidireccional cardioide, con un rango SECCIN I. VALORES NORMALES
de frecuencia de 60 Hz-20 kHz, sensibilidad
de 2,5 mV/Pa (-52 dBV) e impedancia de En este primer estudio se realizaron las
600 Ohm situado a 10 cm de la boca en una comparaciones de los resultados medidos
sala acstica y antecmara con nivel de en voces normales (de ahora en ms, H) en
ruido de 35 dB y tiempo de reverberacin cada programa (PRAAT y ANAGRAF) con
menor a 1 segundo. El material fue regis- aquellos dados por defecto. Inicialmente se
trado con un nivel de calidad de 16 bits y aplic el test de Kolmogorov-Smirnov para
una frecuencia de muestreo de 44.100 mues- corroborar la distribucin normal de los da-
tras por segundo y no se utiliz ningn tipo tos y luego el test t de Student para la vocal
de compresin. Una vez que se tomaron las /a/ de hombres y mujeres del grupo H. Los
sider desagregarlas y analizarlas segn su cia de que los valores de jitter son menores
grado de severidad y confiabilidad. (ver Tabla 3).
Median_pitch 207 24.2 .01 < .05 200 - 120 .68 119 20.42 .00
Mean_pitch 207 24.1 .00 < .05 200 - 120 .68 119 20.35 .00
RAP % .16 .10 .00 > .20* .35 .68 .33 .18 .08 .00
PPQ % .17 .08 .00 < .10* .34 .84 .29 .21 .08 .00
Shim % 1.81 .51 .00 < .10* 2.52 3.81 1.00 2.93 1.53 .00
ShdB (dB) .16 .04 .00 > .20* .22 .35 .09 .26 .13 .00
APQ % 1.43 .41 .00 > . 20* 1.99 3.07 .81 1.81 .93 .00
349
TABLA 2
350
RESULTADOS MEDIDOS CON ANAGRAF EN MUJERES Y HOMBRES NORMALES
Mujeres Hombres
ANAGRAF Fuente n Rango r n Rango
Notacin
N: normal
LM: leve-moderada
MS: moderada-severa
351
TABLA 4
352
RESULTADOS DE FRECUENCIA FUNDAMENTAL MEDIDOS CON PRAAT EN MUJERES Y HOMBRES NORMALES SEGN GRADO DE SEVERIDAD
DE LAS PATOLOGAS
Mujeres Hombres
PRAAT Fuente n Rango r n Rango
Notacin
N: normal
LM: leve-moderada
MS: moderada-severa
Mujeres Hombres
Fuente n Rango r n Rango
Jita LM 155 21.97 16.77 3.76 137.62 .679 64 60.82 100.32 11.65 712.44
MS 78 39.31 68.31 7.64 430.4 .881 66 117.41 184.12 10.97 974.08
Notacin
N: normal
LM: leve-moderada
MS: moderada-severa
353
TABLA 6
354
RESULTADOS DE LA PERTURBACIN DE LA AMPLITUD MEDIDOS CON PRAAT EN MUJERES Y HOMBRES NORMALES SEGN GRADO DE
SEVERIDAD DE LAS PATOLOGAS
Mujeres Hombres
PRAAT Fuente n Rango r n Rango
Notacin
N: normal
LM: leve-moderada
MS: moderada-severa
Mujeres Hombres
PRAAT Fuente n Rango r n Rango
Notacin
N: normal
LM: leve-moderada
MS: moderada-severa
355
Elisei
diagnosis of vocal pathology. Sensitivity and Vieira, M.N., McInnes, F.R. & Jack, M.A. (1996).
specificity of the measures of shimmer and Robust F0 and jitter estimation in pathological
jitter]. Acta Otorrinolaringolgica Espaola - voices. Fourth International Conference on
Sociedad Espaola de Otorrinolaringologa, Spoken Language ICSLP 96, 745-748. doi:10.
49(6), 475-481. 1121/1.1430686.
Preciado, J.A., Garca, R. & Infante, J.C. (1998). Vieira, M.N., McInnes, F.R. & Jack, M.A. (2002).
Anlisis multidimensional de la funcin vocal. On the influence of laryngeal pathologies on
Estudio de casos y controles [Multidimensional acoustic and electroglottoraphic jitter mea-
analysis of vocal function. Case-control study]. sures. Journal of Acoustical Society of Amer-
Acta Otorrinolaringolgica Espaola - Socie- ica, 111(2), 1045-1055.
dad Espaola de Otorrinolaringologa, 49(6), Walton, J. & Orlikoff, R. (1994). Speaker race
467-474. identification from acoustic cues in the vocal
Takahashi, H. & Koike, Y. (1975). Some percep- signal. Journal of Speech Hearing Research,
tual dimensions and acoustical correlates of 38, 738-745.
pathologic voices. Acta Oto-laryngologica.
Supplementum, 338, 1-24.