Вы находитесь на странице: 1из 12

Habla Traqueoesofágica:

Una evaluación objetiva acústica dedicada

1. Introducción
Una laringectomía total (TL) se refiere a la remoción completa de la laringe y la
separación de la vía aérea de la boca, nariz y esófago. Como consecuencia, los pacientes que
fueron sometidos a una TL no pueden producir sonidos de habla de manera convencional,
debido a la remoción de sus cuerdas vocales. Por lo tanto, el objetivo principal del proceso
postquirúrgico consiste en recuperar una nueva voz. Tres opciones son posibles hoy en día
para una rehabilitación después de una TL: Voz esofágica, electrolaringe y habla
traqueoesofágica.
En esta publicación, nos enfocamos en el análisis del habla traqueoesófagica (TE) que como se
ha demostrado en diversos estudios, es una opción de rehabilitación superior a la voz
esofágica y la electrolaringe.
Desde que el esófago y la tráquea son separados después de la TL, un agujero llamado
Traqueostoma es creado en el cuello del paciente para permitir la respiración. En la cirugía
de voz TE, una fistula quirúrgica (llamada punción Traqueoesofágica) es creada en la pared
que esta separando la tráquea y el esófago, permitiendo el posicionamiento de la prótesis
fonatoria. Las diferencias fisiológicas antes de la TL después de la creación de la punción
traqueoesofagica (TE) son ilustradas en la figura 1.

La prótesis fonatoria actúa como una válvula de un sentido: Un flujo de aire puede pasar
desde la tráquea al esófago y además a las cavidades del tracto vocal, permitiendo la
producción del habla; el pasaje desde el esófago a la tráquea hace imposible evitar que los
alimentos o bebestibles ingeridos por el paciente penetren en la tráquea y bajen a los
pulmones.
Cuando se esta produciendo el habla TE, el flujo de aire que esta pasando a través de la
prótesis fonatoria genera en algunos pacientes, la vibración de algunos órganos residuales
llamados segmento faringoesofágico. Cuando el control de este neovibrador (también
llamado neoglotis) es conseguido, los pacientes están capacitados para producir sonidos
vocales, pero generalmente con un bajo nivel de tiempo fonatorio. Como consecuencia,
aunque el habla TE permite recobrar un nuevo medio de comunicarse, padece la mayor parte
del tiempo de una disminución de la naturalidad y la inteligibilidad. En adición, la
individualidad/personalidad del hablante es a menudo perdida (especialmente las pacientes
femeninas), principalmente debido a dos razones: (i) la vibración de la neoglótis,
generalmente ocurre en una frecuencia fundamental baja comparado a la voz normal; (ii) la
forma espectral generada por la vibración de la neoglótis puede ser radicalmente diferente a
la de las cuerdas vocales. En Singer et al. (2012), estos inconvenientes fueron observados
incluso de manera más pronunciada en la voz esofágica y la electrolaringe.
Varios trabajos se han dirigido a la evaluación de la manera en como es percibida la
voz TE. Esta aceptabilidad e inteligibilidad ha sido comparada en Most et al (2000) a las de
ambas voces, laríngea y esofágica. A pesar de que ambos aspectos son degradados cuando los
comparamos con el habla normal laríngea, resulta que el habla TE es percibida por ser más
aceptable que una buena habla esofágica mientras que ambas voces, voz laríngea y esofágica,
tienen un nivel similar de inteligibilidad. El estudio conducente en Singer et al (2012)
investigó la evolución de la inteligibilidad en el habla sin laringe durante el primer año de
seguimiento de la cirugía TL. Pacientes con un prótesis TE, fueron observados por tener los
mejores resultados. Los autores también enfatizaron la mejora de los pacientes dentro del
primer año, tanto como la necesidad de asistir a las sesiones de rehabilitación durante este
periodo.
La comparación entre habla TE y voz laríngea o otros tipo de voz alaringea también
han sido abordados sobre la base de algún parámetros acústico. En Robbins et al (1984), el
hable TE ha sido utilizado usando las características de frecuencia, intensidad y duración.
Basado en estas características, se demostró que el habla TE era más similar al habla normal
que el habla esofágica, y más intensa que ambos otros tipos de habla. Most et al (2000)
observó que la mayoría de las diferencias entre habla laríngea y alaringea reside en la
frecuencia fundamental de la señal. Un sistema que traduce una señal acústica basado en una
inspección visual de un espectrograma de banda estrecha, fue propuesto en Van As-Brooks et
al (2006). De acuerdo con esta herramienta de visualización, el usuario puede clasificar el
habla TE que le proporcionó un paciente entre 1 de 4 categorías predefinidas. Los autores
también mostraron la conexión de esta clasificación con algunas características acústicas
(desviación estándar de F0, Jitter, proporción de la voz hablada y la diferencia de la banda
energética). El estudio conducente en Siric et al. (2012) investigó las diferencias entre TE y
habla esofágica, basándose en los siguientes mediciones acústicas: Intensidad, máximo tiempo
fonatorio, F0, jitter, shimmer y el HNR. Los autores aún no han encontrado alguna diferencia
estadística significativa por lo que concluyeron que cada paciente un acercamiento individual.
Sin embargo, el valor promedio del F0, la intensidad y el máximo tiempo fonatorio demostró
la superioridad de la rehabilitación de habla TE.
En la gran mayoría de los casos, el habla TE es evaluada usando cuestionarios
completados por los pacientes y/o una escala perceptual usada por un Fonoaudiólogo. Varios
instrumentos de autoevaluación de pacientes han sido diseñados para medir la calidad de
vida con disfonía específicamente. Estos incluyen el índice de desventaja vocal (VHI, Moerman
et al. 2004), el cual mide el efecto de desventaja psicosocial de los desordenes de voz, la
medición del relato hablado de la calidad de vida del paciente (V-RQOL, Schindler et al 2012)
o los cuestionarios generales de la Organización Europea de Investigación y Tratamiento del
Cáncer (EORTC), Alvarez-Buylla Blanco y Herranz González-Botas, 2011. La evaluación
perceptual involucra un rating de fonación hecho por los Fonoaudiólogos usando una escala
dedicada. Para este propósito, la escala GRBAS (De Bodt et al. 1997) fue diseñado para la
evaluación general de los desordenes de voz. La escala IINFVo fue propuesta en (Moerman et
al. 2006) específicamente para la evaluación de sustitución sonora. En esta escala, cinco
parámetros son definidos: impresiones generales (I), impresión de la inteligibilidad (I), ruido
aditivo no deseado (N), flujo (F) y sonoridad (Vo). Finalmente, el trabajo en De Bodt et al.
(2002) esta dirigido a expresar la inteligibilidad del habla Disartrica como una combinación
lineal de la calidad vocal, articulación, nasalidad y prosodia.
Los instrumentos antes mencionados permiten una evaluación del habla TE, sin
embargo se exhiben algunos inconvenientes: (i) son los objetivos que se basan en el criterio
propio del paciente, o el del Fonoaudiólogo. Las mediciones resultantes van a esta afectados
por una inherente variabilidad; (ii) Requieren mucho tiempo. En relación a superar estos
inconvenientes, la meta de esta publicación es entregar automáticamente herramientas
acústicas permitiendo una evaluación del habla TE objetiva y cuantitativa. Esta publicación se
basa en nuestro estudio preliminar descrito en Drugman et al. (2013) comparado con
Drugman et al. (2013), tenemos que ampliar aún más el estudio de los artefactos presentes en
el habla TE para llegar a cinco dimensiones relevantes, para la caracterización de cual
herramienta acústica automática especifica esta desarrollándose y compararla con otras
técnicas. Estas cinco dimensiones relevantes incluyen la periodicidad y la regularidad de la
señal, su ruido de alta frecuencia, rango de habla, y la cantidad creakiness/garglings en la
voz. Basado en las dimensiones propuestas, las diferencias entre la voz normal laríngea
(incluyendo un grupo control de personas de edad avanzada) y el habla TE, son estudiados
variados sujetos (conteniendo 63 grabaciones de habla TE y 21 de sujetos control).
Además, un estudio estático es llevado a cabo para investigar la significancia de estas
diferencias. Estas nuevas herramientas son encajadas en una escala propuesta dedicada a la
evaluación objetiva del habla TE, llamada A4S (entendido esta abreviación como Evaluación
Automática Acústica del Habla Alaringea). Finalmente, ilustramos la aplicabilidad del A4S
en el seguimiento de los pacientes y en el estudio del impacto del tipo de cirugía usado para el
TL, discutiendo sus perspectivas.
El resultado de este trabajo es doble. Primero, la escala propuesta permite una
evaluación objetiva de la calidad de la voz de los pacientes a través de varias dimensiones.
Esta información puede ser usada por el Fonoaudiólogo para varios propósitos: (i) para
concentrarse en aspectos específicos de la voz, (destacados por la evaluación propuesta), (ii)
para comparar varios enfoques de rehabilitación de voz, (iii) para mantener un seguimiento
del paciente. Segundo, el conocimiento de estas características es esencial en el diseño de los
sistemas de ayuda de habla destinadas a resintetizar una versión mejorada del habla TE
(como en Qi et al., 1995 o Del Pozo y Young, 2006). En efecto, para mejorar la naturalidad e
inteligibilidad del habla TE, desarrollamos métodos que tienen procesos integrados para
aligerar tales características.
Como se indicó anteriormente, algunos estudios en la literatura han ya reportado un
análisis acústico del habla TE (Most et al. 2000; Robbins et al. 1984; Van As-Brooks et al.
2006; Siric et al. 2012). En adición a esto el trabajo descrito en Huang et al. (2009) investigó el
uso que tienen las técnicas de análisis acústicos existentes, originalmente desarrollado para el
análisis de habla telefónica de banda estrecha, a fin de estimar las cualidades del habla TE.
Con el mismo objetivo en mente, se empleó el modelo auditivo Moore-Glasberg en McDonald
et al. (2010) para extraer características perceptivamente relevantes de la señal acústica. Los
resultados mostraron que la correlación entre las puntuaciones subjetivas y las predicciones
objetivas obtenidas mediante las características del modelo auditivo, era mejor que con las
características de uso común en la industria de las telecomunicaciones. Sin embargo, el
modelo auditivo Moore-Glasberg requiere el uso de una señal de referencia (es decir, de habla
para que la misma frase sirva como una línea de base, generalmente de "buena" calidad), y
consecuentemente del mapeo de tiempo-frecuencia entre las señales probadas y de
referencia. Por último, el enfoque que en Maier et al. (2009) propusieron para predecir las
puntuaciones subjetivas basadas en la tasa de reconocimiento de palabras (WRR) obtenida
mediante un sistema de reconocimiento de voz automático. Se demostró que WRR se
correlaciona fuertemente con la inteligibilidad de la voz. Una evaluación similar basada en el
reconocimiento de voz automático de expresión TE se llevó a cabo que en Haderlein (2007).
Sin embargo los estudios existentes antes mencionados, por lo general sufren de
varios inconvenientes que tratamos de superar en este documento. En primer lugar, las
posibles características nunca se han categorizado y la evaluación de expresión TE en base a
un análisis acústico implica generalmente una calificación a lo largo de una sola dimensión: la
calidad de voz perceptual o la inteligibilidad. En segundo lugar, el análisis acústico o bien
requiere una inspección manual de las señales o se basa en herramientas automáticas
disponibles se utilizan generalmente en forma de caja negra. Estas últimas herramientas en
general se han diseñado para el habla laríngea normal, tienen una solidez baja y por lo tanto
no son adecuadas para el análisis de expresión TE. Por otra parte, la mayoría de las medidas
se derivan de la información F0 cuya estimación es problemática si las herramientas de
análisis son inapropiadas. En tercer lugar, los estudios en general o bien implican un número
limitado de pacientes de TE, o únicamente se basan en vocales sostenidas. En este trabajo, nos
dirigimos a un análisis automático realizado en el habla de lectura continua de un número
bastante grande de pacientes con una punción TE. Las características se clasifican y métodos
automáticos robustos para su caracterización acústica se desarrollan y se integran en la escala
A4S propuesta.
Este documento está estructurado de la siguiente manera. La sección 2 ofrece una
descripción de la base de datos utilizada en nuestro estudio. Las características presentes en
el habla TE se investigan en la Sección 3, donde se desarrollan los métodos de análisis
automático para su caracterización. La escala A4S propuesta se describe en la sección 4 y su
potencial aplicabilidad se demuestra en la Sección 5, en donde también se discuten sus puntos
de vista. Por último, la sección 6 concluye el documento y discute nuestros trabajos futuros.

2. Análisis de los características acústicas en el habla traqueoesofágica


Después de una minuciosa escucha e inspección de nuestras 63 grabaciones de habla
TE, hemos identificado 5 tipos principales de artefactos en habla TE relacionados con la
periodicidad, regularidad, el ruido de alta frecuencia, ruido gargling (gárgara) de la
señal de habla, y el rango de habla. Algunas de estas están vinculadas con las dimensiones
usadas en las escalas perceptuales, GRBAS o IINFVo (Ejemplo: ruido aditivo no deseado, flujo
y sonoridad Moerman et al. (2006)). En esta sección los artefactos son analizados y
cuantificados basados en un estudio acústico automático. Ya que una estimación automática
fiable de segmentos de la voz de habla TE es todavía un problema sin resolver, nuestro
enfoque es impulsado en los siguiente:
 El análisis es interpretado en segmentos con actividad de habla, independientemente
de los criterios sonoros de la voz. Estos segmentos son identificados como aquellos
con una sonoridad porcentual total que supera en más de 25 dB el volumen mínimo en
el enunciado.
 Las características propuestas tienen que ser robustas e independientes de F0 lo mas
posible.
 Para evitar los probables efectos perjudiciales debido a algunos valores estimados no
esenciales, cada fonación es caracterizada por la mediana de las características
acústicas extraidas.

Basandose en esta metodología, los cincos artefactos identificados son ahora


analizados y cuantificados, lo que permite un discurso comparativo con el habla TE y el
habla normal laríngeo en estas cinco dimensiones. Para cada artefacto, se estudia la
significación estadística de las diferencias entre los grupos de TE y control. Para esto, la
hipótesis de que los datos proceden de una población distribuida normalmente se prueba
primero en cada grupo usando la prueba de Lilliefors. Si es positivo, se lleva a cabo la
prueba F de Fisher para la hipótesis nula de que estas dos poblaciones normales tiene la
misma varianza. Si ambas pruebas resultan positivas entonces las condiciones para llevar
a cabo la prueba de r-test Students para grupos independientes se cumplen. De lo
contrario, un no paramétrico como la prueba Mann-Whitney-Wilconxon se lleva a cabo.
2.1 Periodicidad de la señal de habla
Se ha observado en la biografía, que el habla TE con valores de tono comparables a los
de voz normal (Van As-Brooks et al. 2006). No obstante, estos resultados se obtuvieron de una
entrada manual con un discurso con una inspección visual del espectrograma, o desde un
análisis automático utilizando Praat (Boersma 1993). Sin embargo, los dos métodos de
seguimiento de tono disponibles en Praat (utilizando la autocorrelación o la función de
correlación cruzada) se sabe que tienen una mala solidez (Drugman and Alwan, 2011). Por
consiguiente, no es sorprendente encontrar valores de f0 hasta más de 400 Hz, que es
completamente irreal en el habla TE. Como consecuencia de las medidas resultantes derivadas
de F0 son a veces sospechosas y deben ser consideradas con cautela.
En este trabajo, el análisis se basa en la periodicidad de la suma residual de
armónicos, algoritmo que fue especialmente diseñado para el seguimiento robusto del
seguimiento de tono. SRH primero estima la envolvente espectral mediante el análisis de
predicción lineal convencional y luego filtros inversos de la señal de voz. Este paso permite
eliminar considerablemente la influencia de las resonancias del tracto vocal y de ruido. El
espectro de la señal de excitación residual resultante se investigó, y el criterio SRH explota su
estructura armónica. SRH entonces no solo estima la F0, sino que también el nivel de
periodicidad/sonoridad en la señal de la voz. Una decisión de sonoridad binaria fiable puede
ser tomada por la aplicación de un umbral simple de los valores de SRH. En base a este
criterio definimos los valores de SRH se define la proporción de sonoridad como el porcentaje,
entre los marcos con actividad de voz, de tramas detectadas como expresado.
Otra característica captura la periodicidad de la excitación de origen es la kurtosis de
la señal residual de predicción lineal (LP). En voz sorda, la señal de excitación tiene un
carácter ruidoso y su kurtosis es relativamente baja, mientras que en la voz sonora, sus
discontinuidades se exhiben casi-periódicas en los instantes de cierre de la glotis que se
refleja en una mayor escasez y por lo tanto mayores valores de la kurtosis. La kurtosis de la
señal residual LP fue utilizado por Falk et al. (2012) como una forma eficiente para
caracterizar la dureza vocal en el habla disartria espástica.
Las distribuciones de las 4 medidas basadas en la periodicidad de los 3 conjuntos de
datos se presentan en la figura 2. en forma de diagramas de caja. Se puede observar que para
el F0 en pacientes TE, el tercer cuartil es de aproximadamente 100 Hz. En otras palabras, sólo
el 25% de los pacientes tienen un paso comparable a lo que se produce en el habla laríngea
normal, mientras que otros tienen valores de tono mucho más bajos. Curiosamente, esta
observación es válida para ambos sexos. Vale la pena señalar que el tono promedio fue 84,2
Hz para los pacientes femeninos TE, contra 93,7 Hz para varones voces TE.
Esto pone de relieve la importancia de los sistemas con el objetivo de mejorar el habla
TE develiping, ya que esta pérdida de identidad es difícil de vivir, particularmente para los
pacientes de sexo femenino. Una segunda conclusión a partir de la fig. 2 es que el discurso TE
es mucho menos periódica en comparación con el habla normal, con valores
significativamente más bajos de SSR. De manera más precisa, 6 de los 36 pacientes eran casi
incapaz de producir cualquier sonoridad y comunicada casi exclusiva con voz susurrada. Una
observación importante del estudio periodicidad es la gran discrepancia entre los pacientes
TE, no sólo en cuanto a su capacidad de generar sonidos sonoros, sino también con respecto a
su mean pitch. Por ejemplo, mientras que un paciente masculino produce pitch de alrededor
de 30 Hz, otros utilizan valores F0 en alrededor de 160 Hz. Por último, se puede observar que
la periodicidad en el conjunto de control, se encontró que era más baja que en el conjunto de
TTS. Esta disminución se debe al envejecimiento, como es conocido por la literatura (Dehgan y
Scherer, 2013). Tenga en cuenta que todos estos resultados derivados de la utilización del
algoritmo de SSR han sido corroborados por una inspección visual de la señal. En otras
palabras, la forma de onda del habla y su espectrograma se han comprobado manualmente
para asegurar que los resultados de SSR son relevantes y válidos para el análisis de expresión
TE, que se confirmó a través de nuestras observaciones.
El estudio estadístico entre los grupos TE y control demostró que son
significativamente diferentes (p <0,001 mediante la prueba de MWW) para las 3 funciones
basadas en la SSR consideradas. En cuanto a la kurtosis de la señal de excitación, se puede
observar que los grupos de control y de TE tienen valores mucho más bajos en comparación
con el conjunto de datos TTS. Sin embargo, las diferencias entre las voces de mando y TE no
resultaron ser significativas. Una posible explicación es el hecho de que las voces
normofónicas de ancianos ya se sabe que poseen cierta aspereza (Dehgan y Scherer, 2013).

2.2 Regularidad en la fonación


Además de la periodicidad reducida, se observó la phanation TE a ser menos regular.
Esto se puede explicar fisiológicamente por el hecho de que las turbulencias son más
importantes en el segmento faringoesofágico (PE) en los pacientes de TE, que en la glotis para
sujetos normales. La cantidad de irregularidades está aquí assesed basado en cuatro medidas
acústicas: La variación del retardo de grupo Chirp (CGD), la variación espectral, el error LP
normalizada y la dinámica temporal de corto plazo. La variación de la CGD que se propuso en
Drugman et al. (2011b) como una medida eficaz para caracterizar trastornos de la voz. La
ventaja de utilizar el CDG es que esta representación se basa en la fase de la señal de voz, que
ha demostrado ser más adecuado para la captura de sus irregularidades en comparación con
su homólogo de amplitud de Fourier (Drugman et al., 2011b). La variación espectral (Peeters,
2003) se calcula como la correlación cruzada normalizada entre dos espectros de amplitud
sucesivas (utilizando 30 ms de duración en ventana Hanning, y un cambio de marco
convencional de 10 ms). Cuanto más irregular la señal, mayor es la CGD y variaciones
espectrales. El error LP normalizado es el error cometido cuando se considera un modelo
autorregresivo (AR) (cuyo orden se fija de forma estándar a Fs / 1000 + 2, donde Fs denota la
tasa de muestreo) para explicar la señal de voz. Se define como el error de predicción dividida
por la energía de la trama.

Si la producción del habla es estratificado y por el modelo AR perfecto, con la voz del
habla se caracterizaría por una señal residual LP siendo un tren de impulsos ideal, y el error
LP sería mínimo. Cuanto más fuerte es la turbulencia durante la fonación, la señal de
excitación más ruido e irregularidades contiene, y más se desvía de la secuencia de impulsos
ideal. Una fonación irregular se refleja por errores LP normalizados de mayor tamaño.
Finalmente, los períodos cortos temporales dinámicos (STTD) que se propuso en Falk et al.
(2012) para caracterizar las perturbaciones de patrones rítmicos. STTD puede ser calculado
como la desviación estándar de la tasa de inicio de energía del cambio, que se define como la
primera derivada de coeficiente cepstral de orden cero. Se ha demostrado en Falk et al. (2012)
para ser un buen indicador de inteligibilidad disartrica de la palabra.
Los resultados se muestran en la Fig. 3. Estas distribuciones reflejan el mismo
fenómeno: la regularidad en el grupo de TE es mucho menor. Estas diferencias se observaron
para ser estadísticamente significativas (p <0,001) para los cuatro parámetros (que emplean
una prueba t para CGD, las variaciones espectrales y STTD, y una prueba de MWW para el
error LP normalizado). Una vez más, el efecto del envejecimiento se puede ver en el conjunto
de control que es menos regular en comparación con las bases de datos de TTS. Vale la pena
señalar en este punto que la periodicidad y la regularidad son dos aspectos complementarios
de la palabra. Como se discutió en la sección 3.1, estas dos dimensiones son de sólo poco
correlacionados. Por ejemplo, hemos observado que algunos pacientes son capaces de
producir el habla TE con una periodicidad aceptable, pero con una regularidad baja, o
viceversa.

2.3 Ruido de alta frecuencia


Algunos pacientes tienen dificultades para administrar el flujo de aire que surge en la
tráquea de tal manera que pasa completamente a través de la prótesis TE al hablar. Esto
puede ocurrir cuando el paciente utiliza una válvula en el traqueostoma. Como consecuencia,
un cantidad de flujo de aire es desalojado en el traqueostoma lo cual no sólo conduce a un
discurso menos fuerte, sino también produce la sensación de un señal más ruidosa,
especialmente en las altas frecuencias (HF). Con el fin de cuantificar la cantidad de HF, el
espectro promedio a largo plazo se estima para cada hablante. Para ello, el espectro de
amplitud de cada trama (para el que la actividad de voz se ha detectado) se calcula y se
normaliza en energía. Los espectros obtenidos se promedian durante toda la fonación. Dado
que el texto que se lee es fonéticamente equilibrado, los efectos de los formantes se puede
suponer que se anulan entre sí, y el espectro a largo plazo contiene contribuciones del tracto
vocal y de la fuente (ya sea de la glotis o neoglottal) de media. El ruido HF finalmente se mide
como la energía relativa más allá de una frecuencia dada (fijo a 1,5 kHz en este trabajo) en el
espectro a largo plazo.
Un ejemplo de un espectro a largo plazo se muestra en el panel izquierdo de la fig. 4
tanto para un sujeto control estándar y un paciente TE que produce una cantidad considerable
de ruido HF. El diagrama de caja de la proporción de ruido de alta frecuencia que se da en el
panel derecho de la fig. 4. Se puede observar que, en promedio, la mayor parte de los
pacientes de TE tienen una mayor cantidad de altas frecuencias en su habla. La prueba t de
Student mostró que estas diferencias son estadísticamente significativas (p <0,001). Sin
embargo, algunos pacientes con una prótesis de TE son capaces de producir el habla con una
proporción de HF similar a la del habla normal.

Por el contrario, para algunos otros, la cantidad de ruido HF puede ser relativamente
alta. Una manera de explicar estas diferencias es el hecho de que la producción en el segmento
de PE puede ser alterado fuertemente en comparación con la vibración en la glotis en el habla
laríngea normal. Como consecuencia de ello, el habla TE carece de la conformación espectral
impuesta por la fuente glotal y se caracteriza principalmente por una baja frecuencia de
resonancia llamada formante de la glotis (Drugman et al, 2011a;. Drugman, 2011). Como se ha
indicado anteriormente, este efecto podría ser reforzada aún más por la falta de control de la
válvula en el traqueostoma.

2.4 Ruido Gargling/Creakiness


Para algunos pacientes, el habla se percibe como si estuvieran hablando con agua en
su garganta. Esto es típicamente debido a problemas de deglución, que conducen al hecho de
que la saliva y / o moco nasal pueden fluir hacia abajo en la garganta. Debido a estas
secreciones, la señal de voz resultante puede exhibir esporádicamente esta característica,
como se ilustra en la Fig. 5 para una vocal / a /. La envolvente de Hilbert alisada está indicada
para poner de relieve las fluctuaciones lento que varían de energía. Se puede observar que el
ruido de gárgaras se refleja por ráfagas de energía no controlados en la señal (generalmente
espaciadas por más de 30 ms). El efecto de percepción resultante es por lo general similar a la
de una voz chirriante. En términos generales, la sensación de una calidad de voz chirriante se
encuentra a menudo en el habla TE, mientras que su uso es relativamente poco frecuente en el
habla laríngea normal. La voz chirriante se define como una calidad áspera o croar de la voz
producida generalmente con un pitch muy bajo y a menudo con periodicidad muy irregular
(Laver, 1980). Se interpreta generalmente basándose en el criterio auditivo "una calidad
áspera con la sensación adicional de impulsos de repetición", como se realiza en Ishi et al.
(2008a) y Kane et al. (2013). La dimensión creakiness está entonces de alguna manera
relacionado con el eje la aspereza en la escala perceptual GRBAS (De Bodt et al., 1997).
Con el fin de detectar automáticamente las regiones de la voz chirriante en el habla
continua, se utiliza el algoritmo propuesto por primera vez en Drugman et al. (2012) y
desarrollado en Kane et al. (2013). Este método se basa en las características acústicas
diseñados específicamente para la caracterización de la voz chirriante, y que son la entrada de
una red neural artificial (ANN).

Se propusieron las características acústicas utilizadas para este propósito en Drugman


et al. (2012) y Ishi y col. (2008b), e incluyen: (i) La diferencia H2 - H1 en dB entre los dos
primeros armónicos de la salida de un resonador cuya frecuencia central se establece en
medio F0 del hablante, (ii) la prominencia pico residual, que caracteriza a la prominencia de
LP-residuales en relación con sus vecinos inmediatos, (iii) los parámetros de pico de potencia
derivados del contorno de energía a muy corto plazo, (iv) la similitud entre pulsos, (v) la
periodicidad intra-cuadro. Sobre la base de estas características, un clasificador ANN fue
entrenado detalladamente anotando de manera manual conversaciónes en varios idiomas y
contextos comunicativos. El algoritmo da finalmente una decisión binaria a nivel de trama
estimar si el habla chirriaba. En este trabajo, la cantidad de ruido Gargling o creakiness (como
se reflejan a través de propiedades perceptivas similares) se cuantifica como el porcentaje de
tramas detectadas como poco sólidas utilizando el algoritmo antes mencionado.
Otro rasgo que caracteriza el ruido Gargling presente en la voz es la modulación a la
energía de la señal de reverberación _ (RSMR), introducido originalmente en Falk et al.
(2010). Esta característica aprovecha las características de modulación espectral del habla
limpia para comparar la energía de modulación entre la señal y la "reverberación de la sala".
En el contexto de la definición de característica original, se encontró un ruido adicional que es
causada por reverberación de la habitación (Falk et al., 2010). Para discurso TE, se demostró
en Huang et al. (2009) que estas frecuencias de modulación adicionales se deben a ciertas
características (por ejemplo Gargling ruido, aspereza) encontrado en la voz. En Huang et al.
(2009), RSMR se observó como la característica más eficiente para la estimación automática
de la calidad de la conversación TE.
Fig. 6 muestra, para los tres conjuntos de datos, la distribución de la proporción de
creakiness (en una escala logarítmica) y de RSMR. Resulta que los altavoces de los conjuntos
de TTS y de control tienen un uso chirriante no superior al 10%. Esto va en línea con los
hallazgos en Drugman et al. (2014), elaborado sobre una variedad de idiomas (EE.UU. Inglés,
japonés, sueco y finlandés) donde se utilizó la voz chirriante entre el 3,5 y el 10,5% de las
veces (como se extrae de las anotaciones manuales). Las características en el habla TE ,
conducen a una percepción de creakiness inferior o igual a 10% en gran medida por cerca de
3 pacientes de más de 4. Este tipo va incluso hasta un 68% en el peor de los casos. Puede
verse también que las voces de TE se caracterizan por valores RSMR inferiores. Después de un
análisis estadístico, estas diferencias entre los grupos de control TE y resultó ser significativa
para ambas funciones (p <0,001 con una prueba de MWW).

2.5 Velocidad de habla


Se sabe que algunos pacientes TE enfrentan algunos problemas en el mantenimiento
de un cantidad de fluidez cuando se lee un texto. En general, tienen que hacer más o más
pausas para poder tragar la saliva / moco . Esto se ha reflejado teniendo en cuenta un
parámetro de fluidez en la escala IINFVo perceputal (Moerman et al., 2006). Esta falta de
fluidez se caracteriza por una velocidad de habla reducida, aquí estimado como la relación de
las tramas para las que se ha detectado actividad de voz (de acuerdo con el criterio de
sonoridad porcentual dada en el principio de la sección 3). Nota: El silencio al principio y al
final de la grabación (antes y después del altavoz está leyendo en realidad) han sido
obviamente descartados.
La distribución de la proporción de habla se muestra en la Fig. 7 para los conjuntos de datos
de control y TE. Cabe destacar que los resultados obtenidos para las bases de datos de TTS no
se incluyen aquí, ya que no son comparables a las de los conjuntos de datos de control y TE.
De hecho, la tarea en la que estaban involucrados los altavoces es distinta. En el conjunto de
TTS, se pidió a los altavoces a pronunciar cada frase por separado y la segmentación de la
base de datos se llevó a cabo en consecuencia. Por lo tanto, los silencios entre las oraciones se
han eliminado, y calcular la relación de habla como se definió anteriormente no tendría
sentido aquí. Por el contrario, se pidió a los sujetos de los grupos de datos control y TE leer el
mismo texto de forma continua, y que utilicen libremente su tiempo de pausa siguiendo sus
capacidades. En consecuencia aquí estamos solamente comparando la proporción de habla de
estas dos últimas series. Se puede observar que sólo el 50% de los pacientes TE fueron
capaces de leer el texto con una velocidad de habla comparable con lo logrado por los sujetos
de control.
El resto de ellos tuvieron dificultades en el mantenimiento de una tasa de habla
suficiente y tuvo que usar pausas más largas o pausas más frecuentemente. La prueba t de
Student mostró que la velocidad de la voz para los pacientes TE no fue significativamente
menor después de la corrección Bonferonni (p = 0,0223> 0,05 / 9).

3. La escala propuesta A4S


En la sección 3, se han identificado cinco características acústicas que pueden ocurrir con
frecuencia en el habla TE. Un análisis acústico y estadístico a fondo se ha realizado y
herramientas han sido desarrolladas con el fin de cuantificar de forma automática estas
características. En esta sección se deriva una Evaluación Automática Acústica del Habla
Alaringea, llamada A4S. La escala propuesta se describe ahora en la Sección 3.1, y la
correlación entre sus ejes se estudió en la sección 3.1.

3.1 La escala A4S


La escala A4S permite una evaluación rápida, objetiva y automática de voces de
sustitución. Se basa en las herramientas de análisis acústicos desarrollados en la Sección 2 y
se evaluó aquí en el marco de la evaluación de la conversación TE. La escala A4S consiste en
una evaluación de la voz a lo largo de las cinco siguientes dimensiones: (i) la periodicidad,
medida mediante la proporción de sonoridad; (Ii) la regularidad, medido a través de la
variación de retardo de grupo Chirp; (Iii) el ruido de alta frecuencia, medida a través de la
energía relativa más allá de 1,5 kHz en el espectro a largo plazo; (Iv) Gargling / creakiness,
medido por medio de la proporción de tramas de voz detectados como voz chirriante; (V) la
velocidad de habla, medido a través de la proporción de las tramas con una actividad de voz.
Estos cinco ejes se han normalizado entre 0 y 1, tal que 0 corresponde a el peor valor en el
conjunto de datos TE y 1 a la mejor relación calidad-precio en el grupo de control. La escala
A4S se representa entonces bajo la forma de un gráfico de radar en la que una voz dada se
caracteriza entonces por un pentágono específico.
Fig. 8 ilustra la escala resultante A4S donde están representadas cinco voces. Las voces
de TE y Control promediadas se indican con fines de información, a fin de comparar más
fácilmente la voz evaluada con los patrones de referencia. Las otras tres voces están
relacionados con la fonación de un determinado paciente 2 semanas, 3 semanas y 3 meses
después de la colocación de la prótesis Provox TE. Este paciente tiene 58 años, se ha sometido
a una cirugía tradicional de cuello abierto y no seguió ningún tratamiento quirúrgico o
radioterapia complementario en el momento de las grabaciones. A4S permite al terapeuta del
habla o al laringólogo calcular rápidamente cuáles son los defectos y fortalezas de la voz, y
apreciar la evolución de la voz del paciente. En el caso específico del paciente estudiado en la
Fig. 8, resulta que en un principio sufrió de los valores más bajos de velocidad de la voz y
Gargling / creakiness , mientras que su sonoridad y la producción de ruido de alta frecuencia
eran en gran parte por encima del paciente TE promediado (y comparable al sujeto de control
promediado). A medida que el paciente acudió a las sesiones de rehabilitación, su voz se puso
mejor lo que se refleja en un aumento general de la zona del pentágono en el plano A4S. Para
este caso en particular, se puede observar en particular que el paciente hizo mejoras
considerables por aliviar los defectos y la consolidación de los puntos fuertes de su voz.

Conclusiones y trabajos futuros


El objetivo de su trabajo es proponer una escala dedicado, denominado A4S, para la
evaluación acústica automática objetivo de discurso alaryngeal. A4S se deriva de un estudio
de las características existentes en el habla TE. Este estudio identificó cinco características
principales para las que se desarrollaron características acústicas específicas para su
caracterización automática. Este artefactos incluyen una menor periodicidad y regularidad,
una mayor cantidad de ruido de alta frecuencia, la presencia de gargling y creakiness en la
señal de voz, y el reducido tiempo fonatorio. El análisis estadístico demostró las diferencias
entre la voz normal y el habla TE son significativas, excepto el tiempo fonatorio. La escala A4S
obtenido esta hecha de cinco dimensiones relacionadas con las características antes
mencionadas, para las que se eligió una medida relevante. La escala A4S se presenta bajo la
forma de un gráfico de radar, lo que permite una visualización rápida e intuitiva de la voz del
paciente, y una determinación fácil de sus fortalezas y defectos. La aplicabilidad de A4S
finalmente se ilustra mediante la comparación de los tipos de cirugía que se usa para la
laringectomía total, y llevando a cabo un seguimiento de los pacientes.