Algo Sobre Voz

UNIVERSIDAD AUTNOMA
METROPOLITANA- IZTAPALAPA
CIENCIAS BASICAS E INGENIERIA
LICENCIATURA EN COMPUTACION
ANALISIS DEL PROCESAMIENTO FRONT-END PARA

EL RECONOCIMIENTO DE FONEMAS
EN ESPAOL E INGLES
Alumnos:
LILIANA CARRILLO DIAZ
OSCAR GONZALEZ REYES
Asesorados por:
FABIOLA MARGARITA MARTINEZ LICONA
ALMA EDITH MARTINEZ LICONA
SEPTIEMBRE DE 2003
INDICE
1. LA SEAL DE LA VOZ: PRODUCCION, PERCEPCION Y

CARACTERIZACION FONETICA ACUSTICA
1.1 EL PROCESO DE PRODUCCION Y PERCEPCION DEL HABLA EN EL

SER HUMANO
1.2 REPRESENTACION DEL HABLA EN EL DOMINIO DEL TIEMPO Y

EN EL DOMINIO DE LA FRECUENCIA
1.3 SONIDOS DEL IDIOMA INGLES AMERICANO Y SUS

CARACTERISTICAS
1.3.1 Las vocales

1.3.2 Diptongos
1.3.3 Semivocales
1.3.4 Consonantes nasales
1.3.5 Fricativos no sonoros
1.3.6 Fricativos sonoros
1.3.7 Sonidos sonoros y no sonoros de oclusin
1.4 SONIDOS DEL IDIOMA ESPAOL Y SUS CARACTERISTICAS
1.4.1 Vocales
1.4.2 Consonantes oclusivas
1.4.4 Consonantes fricativas
1.4.5 Consonantes lquidas
2. EVENTOS ACUSTICOS EN LA PRONUNCIACION DE LAS VOCALES
2.1 ANCHO DE BANDA PARA LAS VOCALES
2.2 TRES TIPOS DE VOCALES: ALTAS, BAJAS E INTERMEDIAS
2.2.1 Las vocales altas: baja frecuencia de la primera formante

2.2.2 Las vocales no altas: alta frecuencia de la primera formante
2.2.2.1 Vocales bajas

2.2.2.2 Vocales intermedias
2.3 POSICION DE LA LENGUA FRENTE-ATRS
2.3.1 Vocales bajas

2.3.2 Vocales con altura intermedia
2.3.3 Vocales altas
2.4 ALGUNOS ATRIBUTOS DE VOCALES EN UN SISTEMA BASADO EN

DISTRIBUCIONES ALTO-BAJO Y FRENTE-ATRS
2.4.1 Derivacin de la Teora de la Perturbacin
2.4.2 Algunos datos para el Ingles Americano
2.5 LA CARACTERISTICA DEL DOBLAMIENTO: MEJORANDO LA

PROMINENCIA DE UN PICO ESPECTRAL
2.6 DISTINCIONES DE LAS CONSTRICCIONES-NO CONTRICCIONES O

TENSAS-RELAJADAS
2.7 NASALIZACION DE VOCALES
3. APROXIMACIONES AL RECONOCIMIENTO AUTOMATICO DEL

HABLA POR UNA MAQUINA
3.1 APROXIMACION USANDO FONETICA ACUSTICA
3.2 APROXIMACION POR RECONOCIMIENTO DE PATRONES

ESTADISTICOS
3.3 APROXIMACION POR INTELIGENCIA ARTIFICIAL (IA)
3.3.1 Fundamentos de Redes Neuronales

3.3.2 Topologas de Redes Neuronales
3.3.3 Entrenamiento de los parmetros de una red neuronal
4. PROCESAMIENTO DE SEALES Y METODOS DE ANALISIS PARA

RECONOCIMIENTO DE LA SEAL DE LA VOZ
4.1 MODELOS DE ANALISIS ESPECTRLAL
4.2 EL PROCESADOR DE BANCO DE FILTROS FRONT-END
4.2.1 Implementacin del Banco de Filtros

4.2.2 Consideraciones para los Bancos de Filtros de Reconocimiento de
la
seal de voz
4.3 MODELO DE CODIFICACION LINEAL PREDICTIVO PARA

RECONOCIMIENTO DE LA SEAL DE VOZ
4.3.1 El Modelo LPC

4.3.2 El procesador LPC para Reconocimiento de Voz
4.3.3 Parmetros tpicos en el Anlisis LPC
5. ANALISIS PERCEPTUAL LINEAL PREDICTIVO (PLP) DE LA SEAL DE

VOZ
5.1 LA TECNICA PLP

5.1.1 Anlisis Espectral
5.1.2 Resolucin Espectral de la Banda Crtica
5.1.3 Preenfasis Equal-loudness
5.1.4 Ley de energa intensity-loudness
5.1.5 Modelado Auto regresivo
5.1.6 Consideraciones prcticas
6. RASTA
7. TRABAJOS PREVIOS: CLASIFICACION DE FONEMAS USANDO RNA Y

EL MODELO RASTA-PLP
8. NUEVOS EXPERIMENTOS
8.1 Caracterizacin
8.2 Experimentos para las vocales del ingles americano
8.2.1 Descripcin de los datos obtenidos del melcepst en las
vocales de voces femeninas
8.2.2 Descripcin de los datos obtenidos del melcepst en las
vocales de voces masculinas
8.3 Experimentos para las vocales del espaol
8.4 Resultados obtenidos con la Red Neuronal.
8.5 Conclusiones
1. LA SEAL DE LA VOZ: PRODUCCION, PERCEPCION Y
CARACTERIZACION FONETICA-ACUSTICA
1.1 EL PROCESO DE PRODUCCION Y PERCEPCION DEL HABLA EN EL

SER HUMANO
El proceso de produccin de la voz inicia cuando el hablante formula un mensaje

(en su mente) que espera transmitir al oyente a travs del habla. En contraste, la
mquina se basa en la creacin de texto impreso expresando el mensaje. El siguiente
paso es convertir el mensaje al cdigo del lenguaje. Esto corresponde a convertir el
texto impreso en secuencias de fonemas correspondientes a los sonidos que componen
las palabras (con marcos prosdicos, ruidos, nivel de pitch o frecuencia fundamental.
Una vez que el cdigo del lenguaje es elegido, el hablante ejecuta una serie de
comandos neuromusculares; stos controlan los labios, la mandbula, la lengua y el
velum o velo del paladar que funciona como trampa que controla el flujo acstico de
aire para el mecanismo nasal. Los corticuladores causan que las cuerdas vocales vibren
apropiadamente, adems el tracto vocal toma la forma adecuada para que la secuencia
de sonidos de la voz sea creada por el hablante, produciendo una seal de salida de
naturaleza acstica.
Una vez que la seal de la voz es generada y propagada hasta el oyente,

comienza el proceso de percepcin. Primero el oyente procesa la seal acstica a lo
largo de la membrana basilar en el interior del odo, la cual funciona mediante un
anlisis espectral. Un proceso de traduccin convierte la seal espectral en seales de
actividad para el nervio auditivo, correspondiente al proceso de extraccin de
caractersticas en una mquina. Luego el nervio auditivo convierte las seales en cdigo
de lenguaje que puede entender el cerebro y finalmente el mensaje es comprendido.
Algo parecido debe pasar con una mquina de reconocimiento del habla.
Primero se crea el texto impreso por la mquina generadora (50 bps -bits por segundo-,
o sea 8 sonidos por segundo, donde cada sonido es uno de 50 sonidos fundamentales
distintos). Despus sigue la conversin del cdigo del lenguaje con la inclusin de
informacin prosdica (200 bps). En alguna parte, en el siguiente estado la
representacin, la informacin en la seal llega a ser continua con un promedio de 2000
bps para el nivel del control neuromuscular, y cerca de 30,000-50,000 bps para el nivel
de la seal acstica.
Un canal de transmisin se encarga de transmitir (por alguna de las tcnicas de

codificacin) la forma de onda acstica desde el hablante hasta el oyente. Los pasos en
el mecanismo de percepcin del habla pueden ser interpretados en trminos de la
proporcin de informacin en la seal o del control que se tenga, y seguir el patrn de
proceso de produccin. La proporcin de informacin continua en la membrana basilar
est en el rango de 30,000 a 50,000 bps mientras que para el estado de traduccin
neuronal esta en los 20,000 bps.
El nivel ms alto de procesamiento es en el cerebro convirtiendo la seal

neuronal en una representacin discreta, la cual finalmente es decodificada en un
mensaje.
El tracto vocal consiste de la faringe (la conexin del esfago con la boca) y la
boca o cavidad oral. En promedio para un hombre, el tracto vocal mide ms o menos 17
cm. El rea de la seccin transversal del tracto vocal esta determinada por la posicin de
la lengua, los labios, la mandbula, el velum y finalmente por las ventanas de la nariz.
Cuando el velum baja, el tracto nasal acsticamente se acopla al tracto vocal para
producir el sonido nasal del habla.
El aire entra al pulmn a travs de un mecanismo normal de respiracin. El flujo

de aire es cortado en pulsos peridicos los cuales son modulados en frecuencia por la
faringe, la cavidad de la boca y la posicin de la cavidad nasal. Dependiendo de las
posiciones de varias articulaciones se producen diferentes sonidos.
Los pulmones y los msculos asociados actan como la fuente de aire para
excitar el mecanismo vocal. El aire atraviesa los bronquios y la trquea. Cuando las
cuerdas vocales se tensan, el flujo de aire causa su vibracin, produciendo los sonidos
de la voz. Cuando las cuerdas vocales estn relajadas, el aire esta pasivo pero una
contraccin produce una turbulencia generando los sonidos sin voz. El habla es
producida por una secuencia de sonidos. El estado de las cuerdas vocales, tal como su
posicin, forma y tamao de las variadas articulaciones, cambian reflejando el sonido
que producen.
1.2 REPRESENTACION DEL HABLA EN EL DOMINIO DEL TIEMPO Y EN

EL DOMINIO DE LA FRECUENCIA
La seal del habla vara muy poco en un corto perodo de tiempo (5 a 100 ms).
En perodos ms largos cambia (1/5 de s o ms) reflejndolo en los diferentes sonidos
del habla. El silencio que antecede a una frase se ve como la baja frecuencia inicial de
una grfica de frecuencia.
Hay varias formas de clasificar (etiquetar) eventos del habla. Tal vez la ms
directa es por el estado de la fuente de produccin del habla, es decir las cuerdas
vocales; usando tres estados de representacin: 1. silencio, cuando no se ha producido el
habla, 2. sin voz o sordos (voiceless), cuando las cuerdas vocales no vibran, 3. con voz
o sonoros (voiced), cuando las cuerdas vocales son tensadas y vibran peridicamente.
La segmentacin no es exacta entre estos tres estados, en algunos casos es difcil
distinguir un sonido dbil despus del silencio, sonidos sonoros desde sonidos sordos o
desde el silencio.
Una alternativa para caracterizar la seal de la voz y representar la informacin

asociada, es usar representacin espectral. La representacin ms popular es el
espectrograma de 3 dimensiones (intensidad del habla en diferentes bandas de
frecuencia sobre el tiempo), la intensidad espectral se muestra con la intensidad de
oscuridad de la grfica. Las regiones con voz se ven con algunas lneas, los perodos de
habla sin voz se ven con altas frecuencia de energa y en los perodos de silencio no hay
actividad.
Fig.1.1. Representacin por medio del espectrograma de la palabra fondo.
Otra forma de representar las variaciones de la seal en el tiempo es con una

parametrizacin de la actividad espectral basada en el modelo de produccin del habla.
Esto es, como una funcin de transferencia de energa desde la fuente de excitacin
hasta la salida, podemos describir a la seal en trminos de frecuencias naturales o
resonancias del tubo; tales resonancias son llamadas formantes del habla. Tpicamente
se toman tres resonancias significativas para el tracto vocal humano, por debajo de los
3500 Hz. Con este mtodo se puede tener una buena aproximacin de las formantes de
la voz, aun cuando se tienen dificultades para estimar las frecuencias de las formantes
para bajos niveles de sonidos sonoros y para definir las formantes de regiones sordas o
de silencio.
1.3 SONIDOS DEL IDIOMA INGLS AMERICANO Y SUS

CARACTERSTICAS
El nmero de distintos sonidos lingsticos del habla en un lenguaje es

frecuentemente un asunto de juicio y no es invariante para distintas lenguas. Si
hablamos del alfabeto de smbolos de fonemas americanos en ingls, se tienen 48
sonidos. La Fig. 1.2 nos muestra una clasificacin estndar de los sonidos ms comunes
del ingls.
1.3.1 Las vocales
Las vocales son tal vez la clase de sonidos ms interesantes en ingls. El sonido
de las vocales es producido principalmente por la posicin de la lengua, pero la posicin
de la mandbula, los labios y el velum tambin influyen en el sonido resultante. La
duracin de las vocales es larga en comparacin con el sonido de las consonantes y son
espectralmente bien definidas. Son significativas para el reconocimiento del habla del
humano y de la mquina.
Hay varias formas de clasificarlas; una forma tpica es por la configuracin de

las articulaciones requerida para producir los sonidos (principalmente por la posicin de
la lengua -al frente, en medio o atrs- y por la altura de la joroba de la lengua baja,
media o alta-), con grficas de formas de onda y de espectrogramas.
Figura 1.2 Clasificacin de fonemas estndar en Ingls Americano por clases de sonidos
Las vocales frontales (IY, IH, EH, AE) muestran alta frecuencia, las vocales
medias (AA, ER, AH, AX, AO) muestran un balance de energa y en las vocales
dorsales (UW, UH, OW) predomina la informacin espectral de baja frecuencia. Esta
conducta es evidente en las grficas de los espectrogramas donde las vocales frontales
muestran una segunda y tercera alta formante de frecuencia, las medias presentan
formantes de frecuencia bien separadas y balanceadas y las vocales dorsales,
especialmente la /u/ (UW), muestran poca energa, observando la primera y segunda
formantes con baja frecuencia. Pero tambin se debe considerar la variabilidad de
pronunciacin entre hombres, mujeres y nios con diferente acento regional y otras
caractersticas variables.
Se pueden hacer grficas con elipses que encierren cada clase de vocal, pero se
tendr la sobreposicin de estas elipses. Una forma de explotar la informacin que se
encuentra para cada vocal es encontrar el centroide en el espacio de la formante
representando el promedio de las caractersticas de formantes. Se puede generar un
tringulo de la clasificacin de las vocales de acuerdo con la posicin de sus formantes
como lo muestra la Fig. 1.3.
Con este tringulo se hace una buena representacin de las vocales, donde los
extremos representan la localizacin en el plano F1-F2.
Figura 1.3 Triangulo de las vocales
En este tringulo solo se toman en cuenta las diez principales vocales ms

usadas en el lenguaje ingls americano. La siguiente tabla nos muestra los valores de las
tres primeras formantes de estas vocales, su smbolo en el sistema de transcripcin IPAy
una palabra de ejemplo en la que se usa cada vocal.
Tabla 1. Frecuencias de las 3 primeras formantes para las vocales tipicas americanas
1.3.2 Diptongos
Un diptongo se define como un deslizamiento monosilbico del sonido de la voz

que empieza en la posicin de una vocal y termina en la posicin de otra. De acuerdo
con esta definicin hay seis diptongos en el ingls americano. Son producidos por una
ligera variacin en el tracto vocal de la configuracin de la vocal apropiada.
1.3.3 Semivocales
El grupo de sonidos consiste de /w/, /l/, /r/ y /y/ difciles de analizar. Son
generalmente caracterizados por un deslizamiento en funcin del rea del tracto vocal
entre fonemas adyacentes. Estn fuertemente influenciadas por el contexto en el que se
encuentren. Son transiciones de sonidos como el de las vocales.
Las consonantes nasales /m/, /n/ y / / son producidas por exitacin glotal y
contriccin total del tracto vocal. La boca sirve como cavidad resonante que atrapa la
energa acstica. Son caracterizadas por ser espectralmente anchas. Son distinguidas de
acuerdo con el lugar del tracto oral en el que la contriccin se hace para producirlas, la
/m/ en los labios, la /n/ justo detrs de los dientes y la / / en el velum.
1.3.5 Fricativos no sonoros
Son /f/, / /, /s/ y /sh/ producidos por exitacin del tracto vocal por el estable flujo
de aire, con lo que se crean turbulencias de flujo de aire en la regin de la constriccin
del tracto vocal. La localizacin de la constriccin sirve para determinar que sonido se
produce, asi, la /f/ tiene la constriccin cerca de los labios, la / / cerca de los dientes, la
/s/ cerca de la mitad de la cavidad oral y la /sh/ cerca de la parte posterior de la cavidad
oral. El sistema para producirlas consiste de una fuente de ruido con una constriccin
que parte en dos el tracto vocal.
1.3.6 Fricativos sonoros
Los fricativos sonoros /v/, /th/, /z/ y /zh/ son la contraparte de los fricativos no
sonoros /f/, / /, /s/ y /sh/ respectivamente, ya que el lugar de la constriccin es
esencialmente el mismo para cada uno. Estos sonidos tienen dos fuentes de ruido, la
glotis (orificio superior de la laringe entre las dos cuerdas vocales inferiores) y el flujo
de aire de las turbulencias provenientes de las cuerdas vocales.
1.3.7 Oclusivos sonoros y no sonoros
Las consonantes oclusivas sonoras /b/, /d/ y /g/ son transitorias, sonidos no
continuos producidos por la presin de la constriccin en la cavidad oral y la sbita
liberacin de la presin. Para la /b/ la oclusin es en los labios, la /d/ atrs de los dientes
y la /g/ cerca del velum. Las formas de onda de las consonantes de paro dan mucha
informacin sobre ellas.
Las consonantes oclusivas no sonoras o sordas /p/, /t/ y /k/ son similares a sus
contraparte /b/, /d/ y /g/, con la excepcin de que para las no sonoras, cuando se cierra
totalmente el tracto vocal, las cuerdas vocales no vibran.
1.4 SONIDOS DEL IDIOMA ESPAOL Y SUS CARACTERSTICAS
Para ilustrar los aspectos ms significativos de cada sonido se emplearan

diversos espectros de voz producidos informticamente. El mtodo utilizado para
producir estos espectros es el de prediccin lineal, puesto que la transformada de
Fourier resulta ms apropiada para observar fenmenos puntuales como barras de
oclusin, vibraciones, etc.
1.4.1 Vocales
En el lenguaje espaol se tienen cinco vocales /a/, /e/, /i/, /o/ y /u/. Las vocales
presentan estructuras de formantes bien definida debido a la emisin del flujo de aire
por el conducto bucal sin apenas resistencia y con las cavidades resonadoras
potenciando los armnicos distintivos de cada vocal. Su situacin exacta vara segn el
hablante y la realizacin del habla. Las posiciones relativas de las dos primeras
formantes son:
i e a o u
Figura 1.4 Posiciones relativas de las dos primeras formantes para las vocales
La vocal /a/ es central, abierta y sonora; en algunos estudios realizados

previamente [13] donde se hiciendo 3 grabaciones con el mismo hablante, se encontro
que en el espectro para la /a/ destacan 3 formantes; el primero en una frecuencia de 904
Hz, 861 Hz y 861 Hz; el segundo de 1,421 Hz, 1,464 Hz y 1,378 Hz; y el tercero de
2,627 Hz, 2,584 Hz y 2,627 Hz.
La vocal /e/ es anterior, media y sonora; en el mismo estudio haciendo tres

grabaciones con el mismo hablante, se encontr que en el espectro, son los formantes
primero, segundo y cuarto los que que mantienen con regularidad la frecuencia; el tercer
formante oscila entre el segundo y el cuarto formante. El primero tiene una frecuencia
de 413 Hz, el segundo de 2,239 Hz, 2412 Hz y 2,369, y el cuarto de 3,661 Hz, 3,661 Hz
y 3,704 Hz.
La vocal /i/ es anterior, cerrada y sonora. Haciendo el mismo experimiento con

tres grabaciones del mismo hablante, se produce una situacin muy similar a la de la /e/:
los tres formantes principales se encuentran en las frecuencias de 258 Hz, 2412 Hz y
3,531 Hz, pero surgen unos formantes con energa ms dbil que, dependiendo de la
grabacin, aparecen en frecuencias distintas.
Para la vocal /o/, que es posterior, media y sonora, haciendo el mismo

experimento, se obtuvo que los dos primeros formantes son muy estables y se dan en las
frecuencias de 474 Hz y 861 Hz. Los formantes de frecuencias altas, segn la grabacin,
aparecen alrededor de los 3,900 Hz, o no aparecen ya que disponen de muy poca
energa.
Finalmente para la /u/ que es posterior, cerrada y sonora, de un experimento

similar, se obtuvo que slo aparecen dos formantes bastante estables entre las distintas
grabaciones. El primero aparece en la frecuencia de 258 Hz y el segundo en la de 689
Hz.
1.4.2 Consonantes Oclusivas
Este tipo de sonidos, al igual que en el idioma ingls, surge del cierre u oclusin
de los rganos fonadores durante un intervalo de tiempo, seguido de su apertura con la
siguiente salida brusca de aire (explosin).
Los fonemas bsicos son:
oclusivas sordas:
/p/ Punto de articulacin labial. Ejemplo pasa.

/t/ Punto de articulacin dental. Ejemplo tasa.
/k/ Punto de articulacin velar. Ejemplo casa.
oclusivas sonoras:
/b/ Punto de articulacin labial. Ejemplo bado.

Sonido alfono aproximante [ ]. Ejemplo avaro.
/d/ Punto de articulacin dental. Ejemplo dato.
Sonido alfono aproximante [ ]. Ejemplo adoro.
/g/ Punto de articulacin velar. Ejemplo gato.
Sonido alfono aproximante [ ]. Ejemplo agarro.
Recordemos que un alfono se refiere a las diferentes realizaciones de un mismo

fonema segn el entorno en el que est situado.
Los sonidos oclusivos sordos presentan una zona de silencio seguida por una
breve barra de explosin vertical, que tiene mayor duracin temporal en el sonido [k].
La barra de explosin contiene ms energa en la zona baja del espectro en el caso
bilabial, en la zona media cuando se trata del sonido [t] y en la parte alta para [k].
Los sonidos aproximantes sonoros [ ], [ ], [ ] poseen la caracterstica de

sonoridad representada por una frecuencia muy baja (barra de sonoridad) producida por
la vibracin bsica de las cuerdas vocales.
1.4.3 Consonantes Nasales
Se producen por un cierre de los rganos articulatorios bucales, con la

consiguiente expulsin del aire a travs de los conductos nasales.
Los fonemas nasales son:
/m/ Punto de articulacin labial

/n/ Punto de articulacin alveolar
/ / Punto de articulacin palatal
Estas consonantes tienen variedad de alfonos dependiendo de la estructura de la

palabra y la posicin de la lengua, los labios y los dientes al pronunciarlas. Los
alfonos ms comunes son:
[m] Bilabial, sonido del fonema /m/. Tambin cuando el fonema /n/ precede a
una consonante labial /p/, /b/ o /m/. Ejemplo mam.
[ ] Labidental, cuando el fonema precede a una /f/. Ejemplo un farol.
[ ] Linguointerdental, cuando el fonema precede a / /. Ejemplo un cero.
[ ] Linguodental, cuano el fonema precede a /t/ o /d/. Ejemplo un torno.
[n] Linguoalveolar, cuando el fonema precede a vocal, consonante alveolar o
pausa. Ejemplo un loro.
[ ] Linguopalatizada, cuando el fonema precede a una consonante palatal.
Ejemplo un chico.
[ ] Linguovelar, sonido del fonema / / . Tambin cuando el fonema precede a
una consonante velar, /k/, /g/ o /x/. Ejemplo caa.
El primer formante nasal aparece mucho ms alto que la barra de sonoridad de

otras consonantes, y est es una buena indicacin de la nasalidad. Adems la intensidad
del primer formante se reduce.
1.4.4 Consonantes Fricativas
Estos sonidos se producen cuando se realiza un estrechamiento entre dos

rganos articulatorios producindose la fricacin.
Existen cinco fonemas fricativos: /f/ (ejemplo caf), / / (ejemplo zona), /s/
(ejemplo casa), / / y /x/ (ejemplo paje). A cada fonema le corresponde un sonido,
salvo / / que presenta dos alfonos:
[d ] Africado, cuando se encuentra despus de pausa, de consonante nasal, de

/l/. Por ejemplo, en la palabra yo
[ ] Aparece en el resto de los casos. Por ejemplo en la palabra mayo .
En castellano existe un fonema africado, que acsticamente se compone de la

secuencia oclusivo+fricativo. Loas alfonos existentes son [d ] y [ ] que ya han sido
mencionadas, y [ ]. Un ejemplo de este ltimo fonema lo encontramos en la palabra

chico.
Las fricativas se diferencian de las dems consonates por el ruido que presentan.
Para distinguir las fricativas entre s, se recurre a determinar la altura frecuencial a la
que se presenta su mayor energa. La mayor parte de estos sonidos poseen resonacias
altas.
1.4.5 Consonantes Lquidas
Se producen al pasar el aire por la cavidad bucal con una oclusin central o
lateral, de manera que estas consonantes se encuentran acsticamente entre las vocales y
las dems consonantes. Los fonemas lquidos son:
Laterales: /l/ y / /.
Vibrantes: /r/ y / /.
Alfonos de /l/:
[ ] Interdental, como en dulce.

[ ] Dental, como en toldo.
[ ] Palatal, como en el chico.
[l] El resto de los casos, ejemplo ala.
Sonidos vibrantes:
[r] Ejemplo caro.

[ ] Ejemplo carro.
Debido a la poca resistencia a la salida del aire que existe en las consonantes
laterales, acsticamente existen formantes similares a los sonidos voclicos. Las
vibraciones se producen por medio de interrupciones a la salida del aire. La vibrante
simple presenta una breve oclusin, mientras que en la mltiple se producen varias
oclusiones seguidas.
2. EVENTOS ACUSTICOS EN LA PRONUNCIACION DE LAS
VOCALES
Si examinamos la variedad de propiedades acsticas relacionadas con la apertura

del tracto vocal al pronunciar las vocales, podemos encontrar las caractersticas
acsticas que definen a cada una.
Podemos hablar de la contraccin que se lleva a cabo en el tracto vocal inferior,

con lo que se producen significativos efectos en el espectrograma del sonido. El tamao
de la contraccin generalmente se encuentra en el rango de 0.2 a 0.4 cm2 mientras que
tambin se involucra como fuente a la glotis. Todas ellas determinan la amplitud, el
ancho de banda de la primera formante y el pico espectral del resto de ellas.
La principal fuente de sonido se encuentra en la vecindad de la glotis, es por

ello que nos interesa analizar el sonido de las vocales como vibraciones que producen
un quasi-periodo de velocidad del volumen (fuente acstica) para la glotis. Tambin
nos interesa analizar la fuente de ruido cercana a la glotis, la cual se presenta como
turbulencias en el flujo de aire cerca de la contraccin de la glotis. La forma del tracto
vocal entre la glotis y los labios pueden manipularse ajustando la posicin de los labios
y la lengua (cuerpo, raz y dorso). Para la produccin de las vocales tambin se
relaciona otras articulaciones como la estructura de la laringe y la abertura del velo
faringe acoplndose con la cavidad nasal.
Al estudiar las caractersticas que permiten el sonido de las vocales, tambin es

importante estudiar las distintas respuestas, de naturaleza psicolgica, en el odo de los
receptores.
2.1 ANCHO DE BANDA PARA LAS VOCALES
Cuando la fuente de sonido es una del tipo donde el volumen se desplaza a una
velocidad como la glotis y cuando el tracto vocal se toma como un tubo sin
obstrucciones ni modos de cruzamiento, la funcin de transferencia desde la fuente
hasta la abertura de la boca es una funcin todo polos, definida para la frecuencia y
ancho de banda de los mismos. Cuando la forma del tracto vocal se ajusta por la lengua
y otras estructuras, las frecuencias de los polos o formantes cambian a nuevas
posiciones con lo que podra cambiar tambin el ancho de banda de la formantes. De
hecho hay relacin entre las formas del tracto vocal y las frecuencias formantes.
El ancho de banda de las formantes est determinado por las prdidas acsticas
en el tracto vocal. Estas prdidas pueden surgir debido a factores como: las paredes del
tracto vocal, la viscosidad, la conduccin de calor y la radiacin; su contribucin es
aproximadamente la misma para diferentes hablantes, excepto por diferencias en escala.
Las prdidas por las paredes del tracto vocal provocan bajas frecuencias, y con la
radiacin se generan altas frecuencias.
Las prdidas que surgen debido a la viscosidad, la conduccin de calor, la

impedancia en las paredes y la radiacin pueden ser prdidas debidas a la glotis y a una
contraccin angosta del tracto vocal cuando hay flujo a travs de la contraccin. Estas
contribuciones para el ancho de banda de las formantes dependen de la configuracin de
la glotis. Estas prdidas pueden contribuir principalmente al ancho de banda de la
primera formante y probablemente tambin de la segunda formante.
Adems los incrementos o decrementos en el ancho de banda de una formante

pueden influir en la prominencia de su correspondiente pico espectral. La relacin del
valle al pico espectral para dos picos de formantes adyacentes en la magnitud de la
funcin de transferencia del tracto vocal cuando las formantes estn igualmente
espaciadas, queda determinado por 2S/ B, donde S es la distancia, en hertz, entre las
formantes y B es el ancho de banda de los picos. De esta manera, cuando hay cambios
en el ancho de banda de una formante, esto puede tener un marcado efecto sobre la
relacin del valle al pico.
2.2 TRES TIPOS DE VOCALES: ALTAS, BAJAS E INTERMEDIAS
2.2.1 Las vocales altas: baja frecuencia de la primera formante.
Un nmero de factores de acstica, fisiologa, y audicin se combinan para

definir la categora de vocales que son producidas con una posicin alta de la lengua y
una frecuencia baja de la primera formante.
Se sugieren dos formas para caracterizar la respuesta auditiva de las vocales

altas. Un enfoque se basa en la hiptesis de que un sonido con picos espectrales que se
separan al menos por un rango de 3.0 a 3.5 bark, dan una respuesta que es
particularmente diferente a la que se obtiene en el caso de una separacin mayor. En el
caso de vocales altas, el espaciamiento entre F0 y F1 es generalmente de 3 bark, y esta
es una posible base sobre la cual la clase de las vocales altas pueden especificarse. Otro
enfoque se relaciona con la sincrona de descargas de fibras nerviosas auditivas de
frecuencia baja; en el caso de vocales altas esta sincrona con F1 queda determinada por
la respuesta de estas fibras. El efecto de estos factores produce una clase de vocales que
tienen una propiedad acstica relativamente estable y que dan un tipo de respuesta
relativamente bien definido en sistemas auditivos.
Dentro de la clase de las vocales altas, hay un nmero de propiedades acsticas y

articulatorias que pueden definir otras categoras, dependiendo de la posicin de la
lengua en una direccin de adelante para atrs (front-back): la posicin de los labios y
de la hoja de la lengua, el mximo grado de constriccin formado por los labios y la
lengua, y el estado de la estructura de la laringe.
Existe una gran relacin entre la forma del tracto vocal y las frecuencias
formantes de las vocales. Si se hace una similitud del tracto vocal con un tubo uniforme
que se va cerrado hacia atrs en la glotis y cuyo otro extremo se abre en los labios, la
disminucin en el rea de la seccin transversal en la parte frontal del tubo (regin velo
farngea), o el incremento del volumen en la parte posterior (rea de la seccin
transversal en la mitad posterior del tubo o regin farngea), provocan un decremento de
la primera formante (F1). El efecto de angostamiento en esta regin es acompaado por
un levantamiento del cuerpo de la lengua, esto es, el dorso de la lengua queda a pocos
milmetros del paladar blando o duro.
Las vocales /i/ y /u/ son llamadas vocales altas debido al levantamiento del
cuerpo de la lengua provocando una posicin alta de la lengua al pronunciarlas. La /i/ se
produce con una posicin hacia delante del cuerpo de la lengua y la /u/ con una posicin
en retroceso de la lengua. La posicin precisa de la lengua para pronunciar estas vocales
tambin involucra un ajuste de la mandbula. As, el paso del aire que queda entre la
posicin correcta (levantada) del dorso de la lengua y el paladar produce una baja
frecuencia de la primera formante ya que se decremento el rea dela seccin transversal
debido a la contraccin.
La frecuencia de la primera formante se aproxima con un resonador de

Helmholtz y se puede expresar como:
F1=c/2 ( Ac/(V*lc) ) (2.1)
donde c = velocidad del sonido, V = volumen detrs de la contraccin, y lc y Ac son la

longitud y el rea de la seccin transversal de la contraccin respectivamente.
Las paredes del tracto vocal juegan un papel importante en la ms baja

frecuencia natural que tambin esta involucrado en F1, as una mejor aproximacin de
esta formante sera:
F1 = (F1)2 + Fc2 (2.2)
donde Fc. es la ms baja frecuencia natural. El valor de Fc esta en el rango de 150 y 200
Hz para un adulto dependiendo del tamao del tracto vocal.
La principal articulacin que se manipula para producir una primera formante

con baja frecuencia en las vocales altas es el levantamiento del cuerpo de la lengua. Con
ello se crea una contraccin relativamente angosta de suficiente longitud,
aproximadamente 4 cm para un adulto, en la cavidad oral. El tamao y la longitud de la
contraccin tambin determinan el valor de F1. El levantamiento de la mandbula es
aproximadamente de 50 cm3 para una mujer adulta y de unos 70 cm3 para un hombre.
El volumen de la cavidad detrs de la contraccin formado por el cuerpo de la

lengua al pronunciar vocales altas el cual produce una fraccin sustancial del volumen
total, est en el rango de 40 a 60 cm3 para un hombre, pero depende de la posicin ya
sea hacia delante o hacia atrs de la lengua. Para vocales con mayor retroceso de la
lengua el volumen detrs del cuerpo de la misma es menor que en la vocales con el
cuerpo de la lengua hacia el frente. Debido a esto la frecuencia de la primera formante
es ms alta de lo que puede obtenerse al usar las frmulas dada anteriormente para F1.
La influencia de la masa acstica en las paredes del tracto vocal contribuye a la

estabilidad de F1 con perturbaciones en el tamao de la contraccin formada por el
cuerpo de la lengua o los labios.
Otro factor que contribuye a la estabilidad de F1 son las consideraciones

psicolgicas. Tales consideraciones proponen un ajuste de la parte superior del cuerpo
de la lengua en la lnea media de 1 a 2 mm para que F1 este en el rango de 250 a 350
Hz. Este grado de precisin podra ser una difcil tarea de control para el hablante, ya
que debe posicionar y levantar el cuerpo completo de la lengua en el punto del espacio
deseado. Es posible lograr un mejor control del cuerpo de la lengua utilizando los
msculos intrnsecos de sta, los cuales logran endurecer la lengua cerca de la lnea
media y usando las fibras de la lengua, que funcionan como un msculo, es posible
crear una superficie plana o ligeramente cncava con una depresin en la lnea media.
As, para producir la /i/, se tendr un desplazamiento hacia arriba de la lengua

usando los msculos extrnsecos, las fibras ms bajas, con una presin de la lengua
contra el contorno del paladar duro.
El ancho de banda de la primera formante para las vocales altas es

principalmente una consecuencia de las prdidas acsticas en las paredes de tracto vocal
y de la glotis, con pequeas contribuciones debidas a la viscosidad y a la conduccin del
calor en las paredes. En promedio, el ancho de banda de F1 es aproximadamente de 80
Hz para estas vocales. El ancho de banda es ms grande durante la fase de abertura de
vibraciones de la glotis y un poco menor en la fase de cerrado. Para algunos hablantes,
la glotis no se cierra completamente durante un ciclo de vibracin, y el promedio del
ancho de banda de F1 es ms grande para algunos individuos.
Haciendo una comparacin entre las vocales altas (/i/ y /u/) y las vocales bajas
(provocadas con una posicin baja de la lengua como la /a/), se tiene que para las
vocales altas, la primera formante es baja y cercana a la frecuencia fundamental (F0),
mientras que para las vocales bajas el espacio entre F1 y F0 es grande y tienen un
profundo valle espectral en el rango de frecuencia debajo de F1.
Las vocales altas, pueden ser descritas acsticamente por tener un espectro con
slo una marca angosta y oscura de baja frecuencia sumergida en el espectro abajo del
primer pico espectral.
Para las vocales altas, el ms bajo borde prominente de la primera formante est
muy cercano de la lnea base, en cambio para las vocales bajas se tiene una abertura
sustancial entre la lnea base y el ms bajo borde del pico de la primera formante.
Se tiene muy poco conocimiento de la percepcin y de la respuesta auditiva que

se puede tener para las vocales altas, sin embargo una caracterstica relevante de las
vocales altas es que la primera formante de frecuencia est generalmente dentro de los
100 y 200 Hz de la frecuencia fundamental. As, la sincrona de las respuestas de la baja
frecuencia en las fibras del nervio auditivo es muy pequea o incluso no es sncrona con
la frecuencia fundamental. Esto es, si las formas de ondas de vocales altas (para la /i/ y
la /u/ ) fueran pasadas a travs de filtros auditivos de baja frecuencia, solo se observara
una nica sincrona dominante como salida de los diferentes filtros, esta frecuencia
podra ser el armnico ms cercano a F1.
Este patrn de respuesta esta en contraste para la respuesta de las vocales bajas,
para las cuales la primera formante est suficientemente desplazada de la componente
fundamental; estas vocales tiene diferente poblacin de auditorio de fibras nerviosas las
cuales muestran sincrona con la frecuencia fundamental y la primera formante de
frecuencia.
La diferencia de frecuencia entre la primera formante y la frecuencia

fundamental para las altas vocales es generalmente menor que 3 bark para todos los
hablantes (en el rango de frecuencia debajo de 500 Hz, 1 bark es equivalente a 100 Hz),
es decir, el rango de frecuencia dentro del cual hay energa espectral debajo de la
primera formante es menor a 3 bark. Esto se nota cuando los hablantes producen
vocales altas con una frecuencia fundamental (F0) que esta de 10 a 20 Hz ms alta que
F0 para vocales no altas.
2.2.2 Las vocales no altas: alta frecuencia de la primera formante.
Para las vocales no altas, F1 es ms alta que para las altas vocales, y el espacio
entre F0 y F1 es usualmente ms grande que 3 bark. El espacio entre F0 y F1 es
suficiente para que el auditorio de fibras nerviosas con frecuencias caractersticas
cercanas a F0 muestren sincrona con F0 y su sincrona no sea dominada por F1, como
en las vocales altas. Las fibras con caractersticas de frecuencia en la vecindad de F1
muestran sincrona con F1.
Dentro de la clase de las vocales no altas se tienen dos posibilidades: las vocales
bajas que se caracterizan por una alta frecuencia (mxima) en la primera formante y las
vocales no bajas o intermedias para las cuales la frecuencia de la primera formante
est inmediatamente entre la frecuencia de las altas vocales y las bajas vocales. Cada
una de estas dos clases de vocales no altas tiene distintos atributos acsticos, de
percepcin y de articulacin.
2.2.2.1 Vocales bajas
Cuando se estrecha la mitad posterior del tracto vocal, la consecuencia acstica

es un incremento en la frecuencia de la primera formante relativamente para el valor de
F1 para un tracto vocal de rea de seccin transversal uniforme.
Este incremento en F1 aumenta si el rea de la seccin transversal de la mitad

anterior del tracto vocal es incrementado. Al estrechar la regin posterior y ensanchar la
regin anterior del tracto vocal, se lleva a cabo una contraccin en la vecindad de la raz
de la lengua y una posicin baja del cuerpo de la lengua. Estas maniobras, tales como
bajar la superficie dorsal superior de la lengua en la cavidad de la boca son la
consecuencia por la cual se les llama vocales bajas. Dos de estas vocales son la /a/ y
la /ae/. Se forman con una baja posicin del cuerpo de la lengua, una ancha apertura de
la boca y una baja posicin de la mandbula. La parte estrecha en la regin farngea es
una consecuencia especial para la /a/.
El lugar en la regin farngea donde ocurre la mxima contraccin o la extensin

de la regin sobre la cual ocurre el estrechamiento, puede ser por algunos movimientos
del cuerpo de la lengua en direccin anterior o posterior para la /ae/ y /a/
respectivamente.
Hay varias condiciones o marcas que estn disponibles para ayudar al hablante a
lograr una estable y repetible configuracin de articulaciones para la produccin total de
un sonido con propiedades estables para las vocales bajas. La superficie de la lengua es
colocada abajo en la parte frontal del tracto vocal, esta baja posicin asegura que los
bordes laterales de la lengua estn debajo de los dientes superiores, sin contacto entre
ellos; con los que s puede tener contacto es con los dientes inferiores.
Las limitaciones sobre el rea mnima de la seccin transversal farngea
necesaria para producir las vocales bajas quedan determinadas por factores acsticos y
aerodinmicos. El rea de la seccin transversal es reducida, la reduccin en el tamao
de la constriccin para vocales bajas podra estar limitado por el rea de la seccin
transversal que es ms grande que el valor crtico; este valor esta probablemente entre
0.2 y 0.4 cm2 para el tracto vocal de un adulto. La estrategia para producir una vocal
baja, es ajustar la contraccin farngea para obtener una F1 que sea tan alta como sea
posible imponindose sobre los factores aerodinmicos.
La forma del tracto vocal para la vocal baja /a/ puede ser aproximado por la
configuracin de un tubo estrecho como la glotis en un extremo y un tubo ancho como
la boca, en el otro extremo. As, la mxima frecuencia de la primera formante es
obtenida cuando los dos tubos, el ancho y el angosto tiene aproximadamente la misma
longitud. Cuando las longitudes de los dos tubos son aproximadamente iguales, la
frecuencia de la primera formante es ms alta que cuando el radio de las reas de los
tubos de atrs y de adelante decrecen.
El rea mnima de la seccin transversal para la faringe est reportada para estas
vocales, en el caso de hombres adultos, entre los 0.6 cm2 para la /a/. En el caso de la
vocal /ae/, los datos de articulacin muestran que la parte estrecha del extremo glotal del
tracto vocal tiende a ser restringido por una longitud de 6 cm, con un rea mnima de
1.0 cm2.
La reduccin en el rea de la seccin transversal en la regin de la faringe puede

tener efectos acsticos que influyen en el ancho de banda o en el grado de prominencia
espectral para alguna formante en particular. De hecho la mayor parte de la energa
acstica para la frecuencia de la primera formante se almacena en la regin de la
faringe.
2.2.2.2 Vocales intermedias
Para las vocales que no son altas ni bajas, la altura del cuerpo de la lengua es
intermedio entre la posicin de la lengua para las vocales altas y las vocales bajas; a
estas les llamaremos vocales intermedias, dos vocales de este tipo son la /e/ y la /o/ para
una posicin hacia delante o hacia atrs de la lengua respectivamente.
En el caso de una posicin frontal del cuerpo de la lengua, al bajar el cuerpo de

la lengua desde la posicin alta intermedia de la lengua resulta en un incremento del
rea de la seccin transversal de la regin que se contrae. Este desplazamiento causa
una reduccin en la masa acstica de la contraccin y consecuentemente un incremento
en la frecuencia de la primera formante. Esta frecuencia de la primera formante es
intermedia entre la frecuencia para las vocales altas y las vocales bajas.
La configuracin para este tipo de vocales se logra colocando los bordes

laterales de la lengua en contacto con los dientes superiores y las superficies laterales
del paladas blando o duro. La estrategia para que el hablante logre repetir y estabilizar la
configuracin de estas vocales es similar a la usada para producir las vocales altas, es
decir, suponiendo que la parte frontal de la superficie de la lengua se endurezca para
mantener un contorno relativamente liso en direccin lateral sobre una apreciable
porcin ensanchada. La activacin de los msculos para el levantamiento del cuerpo de
la lengua, la empujan hacia el paladar; de esta forma los bordes laterales estn en
contacto con la superficie lateral del paladar. Este conjunto de condiciones es
normalmente realizado por la posicin de la mordaza inmediatamente entre la posicin
para las vocales altas y las bajas.
Cuando el cuerpo de la lengua esta hacia atrs, al bajar el cuerpo de la lengua

desde la posicin alta hasta la posicin intermedia permite el punto de contraccin
mxima ubicado en la regin superior de la faringe. El volumen detrs de la contraccin
no es tan grande como lo es para las vocales altas. En otras palabras, el levantamiento
del cuerpo de la lengua desde una posicin baja puede crear un volumen grande en la
regin farngea detrs de la contraccin, tan bien como un punto de contraccin que es
ms alto del que se tiene para las vocales bajas. Estos dos ajustes contribuyen a la
configuracin de una primera formante que es ms alta que la de las vocales altas y ms
baja que la de las vocales bajas.
Cuando la vocal tiene una F1 alta, esto puede ser observado por fibras de baja
frecuencia con caractersticas de frecuencia en la vecindad de F1 mostrando respuestas
que son sncronas con F1, mientras que las fibras con ms bajas caractersticas de
frecuencia muestran sincrona con F0. Si F1 es suficientemente alta, de cualquier modo
hay fibras sintonizando para frecuencias intermedias (entre F0 y F1) de los cuales las
respuestas no son sncronas para ninguna (ni F0 ni F1). Esto es, F0 y F1 son
suficientemente separables para dominios de frecuencia cercanos de la respuesta de las
fibras.
Para vocales intermedias la separacin entre F0 y F1 no es tan grande como lo es

para las vocales bajas. Hay algunas fibras de baja frecuencia que muestran sincrona
principalmente con F0 y otras que muestran sincrona principalmente con F1.
2.3 POSICIN DE LA LENGUA FRENTE-ATRS
Cada una de las clases de configuracin de las vocales y las formas espectrales
de baja frecuencia descritas anteriormente tambin pueden ser subdivididas en
categoras dependiendo de la posicin de frente hacia atrs (frente-atrs) de la lengua y
sobre la forma del espectro por encima de la primera formante. El movimiento frente-
atrs es realizado para las diferentes alturas que toma la lengua. Las consecuencias
acsticas del desplazamiento frente-atrs de la lengua son similares para las diferentes
alturas de la lengua.
2.3.1 Vocales Bajas
Para las vocales bajas la lengua es baja en la cavidad de la boca, y hay una
constriccin o estrechamiento de la zona vocal en la relativa regin de la faringe para su
rea seccional en la regin oral.
2.3.2 Vocales con Altura Intermedia
Las consecuencias acsticas de los desplazamientos frente-atrs de la lengua

para vocales con altura intermedia de la lengua siguen un patrn similar a las de las
vocales altas.
2.3.3 Vocales Altas
Como en el caso de las vocales bajas, mostraremos que hay un posicin de la

lengua hacia delante para la cual F2 es alto cerrado hasta F3 (y hasta F4), y una posicin
de la lengua hacia atrs, si otras condiciones son satisfechas, dar una mxima baja F2
que es cerrada hasta F1.
En resumen, encontramos una consecuencia acstica comn del desplazamiento

adelante-atrs de la lengua independiente de la altura de la lengua. El movimiento hacia
delante de la lengua causa un incremento de la frecuencia de la segunda formante para
un mximo valor consistente con los tipos de constricciones que son posibles para las
diferentes alturas de la lengua. Este mximo valor es ms alto para las vocales altas que
para las bajas. Para la posicin ms alta de la lengua, y , para algunas extensiones, para
la posicin intermedia, la tercera y cuarta formantes combinan con la segunda formante
para producir un centro de gravedad de la frecuencia espectral alta que es ms alta que
F2.
Vocales hacia delante, entonces, siempre son caracterizadas por una frontera
mnima o espacio vaco en el espectro en el rango medio de la frecuencia entre F1 y
F2. Para una posicin de la lengua hacia atrs, por otra parte, F2 es desplazada hacia
un valor mximo hacia abajo y cerrado hasta F1 para una apropiada seleccin de la
posicin de la lengua. En el caso de las vocales no bajas, un valor de F2 que es el ms
bajo y el ms cerrado hacia F1 puede ser alcanzado por un doblamiento de labios. Una
consecuencia acstica de un valor de F2 que es baja y cerrada hasta F1 es que las
amplitudes de los picos ms altos de frecuencia en el espectro son bajas relativas a las
amplitudes de los picos de F1 y F2, y probablemente no juegan un rol significativo en la
determinacin de cualidades vocales.
2.4 ALGUNOS ATRIBUTOS DE VOCALES EN UN SISTEMA BASADO EN

DISTINCIONES ALTO-BAJO Y FRENTE-ATRAS
Anteriormente discutimos las posibles bases de la articulacin y acstica para

una clase natural de vocales con una posicin alta de la lengua y una clase producida
con una posicin baja de la lengua. Algunos argumentos tambin fueron dados para una
clase intermedia de vocales con una posicin de la lengua no-alta, no-baja.
Este anlisis inicial, sin embargo, sugiere un sistema bsico de seis vocales, tres
alturas de la lengua, cada una con una posicin hacia delante y hacia atrs. Estas vocales
son normalmente clasificadas en trminos de tres caractersticas binarias, [alta], [baja] y
[atrs].
2.4.1 Derivacin de la Teora de la Perturbacin
En la Fig. 2.1 representamos la frecuencia de F1 y F2 en una grafica de dos

dimensiones, con el punto correspondiente para el tubo uniforme dibujado en la mitad
del cuadro.
Segunda
formante
de
frecuencia
(hz)
Primer formante de frecuencia (hz)
Fig. 2.1 Grfica de F2 vs. F1, mostrando como las formantes cambian cuando la forma de un tubo acstico
es perturbado en diferentes formas. El punto medio representa igualmente formantes espaciadas para un
tubo uniforme de longitud de 15.4 cm. Las lneas con flechas indican como las formantes de frecuencia
cambian cuando el tubo es modificado, como se muestra por las formas de los tubos. Las esquinas del
diagrama son etiquetadas con los smbolos de las vocales correspondientes aproximadas a las formas de
los tubos. Tambin son mostradas en el diagrama lugares aproximados para las vocales /e/ y /o/.
La grfica de F1 contra F2 muestra como las formantes cambian cuando la

forma de un tubo acstico es perturbado en diferentes maneras. El punto medio
representa formantes iguales espaciadas para un tubo de longitud 15.4 cm. Las lneas
con flechas indican como las frecuencias de las formantes cambian cuando el tubo es
modificado como se muestra por las formas del mismo. Las esquinas del diagrama son
etiquetadas con los smbolos de las vocales correspondiendo aproximadamente con las
formas de los tubos; tambin se muestran localizaciones aproximadas para las vocales
/e/ y /o/. Las dimensiones son seleccionadas para aproximar el tamao de la zona vocal
de un hablante femenino adulto.
2.4.2 Algunos datos para el ingls americano.
Valores tpicos de F1, F2 y F3 para las seis vocales bsicas, como medida para el
Ingls Americano producidas por hablantes hombres y mujeres, se muestran en la Tabla
2.1.
F1 F2 F3 F0 B0 B1 B2 B3 B2-B1 B3-B2 B1-B0

Vocal Hz Hz Hz Hz Bark Bark Bark Bark Bark Bark Bark
.i (fem) 310 2790 3310 235 2.8 3.6 15.7 16.8 12.1 1.1 0.8
.i (mas) 270 2290 3010 136 1.9 3.2 14.4 16.2 11.2 1.8 1.3
.e (fem) 560 2320 2950 223 2.7 5.9 14.5 16.1 8.6 1.6 3.2
.e (mas) 460 1890 2670 130 1.8 5.1 13.1 15.4 8.0 2.3 3.3
(fem) 860 2050 2850 220 2.6 8.1 13.7 15.9 5.6 2.2 5.5
(mas) 660 1720 2410 127 1.8 6.7 12.5 14.7 5.8 2.2 4.9
(fem) 850 1220 2810 212 2.6 8.1 10.2 15.8 2.1 5.6 5.5
(mas) 730 1090 2440 124 1.7 7.2 9.5 14.8 2.3 5.3 5.5
.o (fem) 600 1200 2540 220 2.7 6.2 10.2 15.1 4.0 4.9 3.5
.o (mas) 450 1050 2610 130 1.8 5.0 9.3 15.2 4.3 5.9 3.2
.u (fem) 370 950 2670 232 2.8 4.2 8.7 15.4 4.5 6.7 1.4
.u (mas) 300 870 2240 137 1.9 3.5 8.2 14.3 4.7 6.1 1.6
Tabla 2.1 Valores de las tres primeras formantes para vocales del ingls americano
La tabla 2 muestra, que en promedio, la frecuencia de la formantes para

hablantes femeninos en estos estudios es de alrededor 18% ms altas que la de los
hablantes masculinos.
2.5 LA CARACTERSTICA DEL DOBLAMIENTO: MEJORANDO LA

PROMINENCIA DE UN PICO ESPECTRAL
El doblamiento de los labios para las vocales no bajas hacia atrs ayuda a
desplazar la segunda formante a una frecuencia que es ms baja que sta, y
consecuentemente decrementa la diferencia en frecuencia entre F2 y F1. Estas
formantes se atraen an ms al introducir el doblamiento para las vocales, adems
tiende a acentuarse la prominencia formada por las formantes y debilitar las
prominencias creadas a altas frecuencias.
Otra ventaja potencial del uso de una configuracin de doblamiento para vocales
no bajas hacia atrs es que F2 para a un mnimo valor, como el de la posicin de la
constriccin de la lengua, es desplazada a travs de la parte superior de la faringe y la
regin velar de la zona vocal. Cuando la lengua se encuentra en esta posicin se produce
un mnimo en F2, y tanto F1 como F2 son relativamente intensas a cambios en la
posicin de constriccin; por eso la precisin con la cual la constriccin debe ser
localizada para dar un valor bajo y estable de F2 no es tan estricta.
Para vocales altas hacia delante existe una prominencia de los picos de F2 y F3.
El cambio de disminucin de la prominencia de frecuencia del espectro en altas
frecuencias es caramente visto. Esta prominencia espectral tambin aparece para ser
ms estrecha y sobresaliente.
Para vocales bajas hacia atrs, F2 es tambin baja, ya que ambas formantes son
influenciadas para algunas extensiones por el ancho de la cavidad frontal. En el caso de
las vocales bajas hacia delante, el doblamiento causa una disminucin de F2 y F3, y
estas formantes tienden a ser ms cercanas entre ellas. Tambin hay una reduccin del
ancho de banda de F3. Estos factores se combinan para producir un pico ms bajo y
prominente.
2.6 DISTINCIONES DE LAS CONSTRICCIONES-NO CONSTRICCIONES O
TENSAS-RELAJADAS
La parte ms estrecha de la zona vocal es menos limitada que la de las vocales

perifricas, y en partes de la zona vocal lejanas de la constriccin del rea seccional no
son tan largas. Vocales producidas con estas posiciones intermedias de la zona vocal
son algunas veces llamadas vocales relajadas, mientras que algunas vocales extremas
son llamadas vocales tensas. Las vocales tensas no bajas son producidas con una
faringe amplia, lo cul se logra por un adelantamiento de la raz de la lengua. La
caracterstica Adelantamiento de la Raz de la Lengua [Advanced Tongue Root (ATR)],
es algunas veces usadas para describir estas vocales.
En ingles, las vocales relajadas tienden a ser ms cortas que las vocales tensas.
Las vocales tensas hacia adelante /i/ y /e/ tienden a ser diptongizadas hacia un extremo
ms alto de la posicin de la lengua, mientras que /u/ y /o/ son diptongizadas hacia un
extremo ms bajo de la posicin de la lengua.
Ejemplos de distinciones tensas-relajadas son las vocales en la pareja de palabras

beet-bit, bait-bet, y whod-hood en el idioma ingles.
Mientras se han descrito los contrastes entre las vocales tensas y relajadas en
trminos de las modificaciones de las formas de la zona vocal y cambios en las
frecuencias de las formantes, hay otras consecuencias acsticas en ajustes de esta zona
vocal que aparecen jugar un rol muy importante para sealar estos contrastes.
Adems, algunos ajustes articulatorios podran ser implementados para aumentar

o disminuir la distincin entre las vocales tensas y relajadas; algunos de estos ajustes y
sus correlaciones acsticas no son bien entendidas.
Por ejemplo, para vocales no-bajas, F1 es ms alta en el caso de vocales relajas

comparada con vocales tensas, la amplitud de su prominencia espectral por arriba de F1
tiende a ser ms grande, relativo digamos, para la amplitud del primer armnico. Si este
atributo juega un rol en la percepcin de estas vocales, entonces el contraste acstico
puede ser acentuado modificando la fuente glotal para los dos tipos de vocales.
Una configuracin ms extendida de la glotal para vocales tensas podra reducir

la amplitud del espectro a altas frecuencias, mientras que una apretada configuracin de
la glotal para vocales relajadas podra aumentar la amplitud del espectro a alta
frecuencia. Este uso de ajustar la glotal para acompaar las modificaciones en la forma
de la zona vocal para la distincin de vocales tensas-relajadas han sido reportadas
(Stewart, 1967).
Una segunda consecuencia acstica de las diferentes configuraciones de la zona

vocal para vocales tensas y relajadas es concerniente con los efectos acsticos y
aerodinmicos de la constriccin de la zona vocal. Si estas vocales son consideradas
como son producidas con una zona vocal ms apretadas, entonces esta constriccin
puede tener dos consecuencias acsticas:
- La primera es crear una carga adicional sobre la zona glotal y por ello
incrementar la longitud de la fase de abertura de la vibracin glotal, resultando
un decrecido espectrograma de amplitud de la zona a altas frecuencias. Este
cambio espectral podra amentar la reduccin en amplitudes de alta frecuencia
causada por la ms baja F1 para vocales tensas.
- Aumentar las prdidas acsticas en la zona vocal, particularmente a bajas
frecuencias, llevando a un incremento de la banda ancha de la primera formante.
Este incremento de la banda ancha de F1podra tambin ocurrir para una
configuracin extendida de la glotal.
En vista de estas mltiples y potenciales correlaciones acsticas de la distincin

de las vocales tensas-relajadas (cambios de formantes, duracin, diptongizacin,
caractersticas de la zona vocal, cambios de la banda ancha) esta caracterstica vocal ha
sido asunto de controversia, y uno puede preguntarse si una sola caracterstica provee
una adecuada descripcin de este contraste.
2.7 NASALIZACION DE VOCALES
En secciones anteriores examinamos como las diferentes posiciones de las

articulaciones, particularmente la lengua, la faringe, y los labios, pueden ser
manipulados para producir diferentes formas para la va de aire supraglotal y por eso
diferentes filtrados de la zona glotal. Estos filtrados pueden ser descritos en trminos de
las frecuencias y anchos de banda de las formantes, ya que la funcin de transferencia
de la glotis a los labios es una funcin de slo polos, con tal de que no haya lados
almacenados en esta ruta acstica y con tal de que la propagacin del sonido en la zona
vocal sea unidimensional.
Hay, sin embargo, situaciones para los cuales, se crean sistemas adicionales
acsticos para la principal va de aire de la zona vocal, dando un aumento de ceros tan
bien como los polos en la funcin de transferencia. Un ejemplo surge del acoplamiento
para el sistema subglotal cuando hay una abertura glotal parcial. Otro ejemplo es el
acoplamiento acstico para la cavidad nasal, que ocurre cuando la abertura de la velo
faringe crea una ruta entre la principal zona vocal y la cavidad nasal. La presencia de
esta abertura de la velo faringe cuando la zona vocal esta en una configuracin como
vocal, causa nasalizacin de la vocal.
Una consonante nasal es producida con una abertura de la velo faringe pero con
una completa estrechez de la principal zona vocal en algn punto de la cavidad oral.
3. APROXIMACIONES AL RECONOCIMIENTO
AUTOMTICO DEL HABLA POR UNA MQUINA
El reconocimiento se basa en las caractersticas acsticas de la seal observada y
lo que se sabe de la relacin entre stas y los smbolos fonticos, este mtodo es
llamado aproximacin fontica-acstica.
Hay tres aproximaciones de reconocedores del habla:
1. La aproximacin fontica-acstica.
2. La aproximacin de patrn de reconocimiento.
3. La aproximacin por inteligencia artificial.
La aproximacin fontica-acstica se basa en las propiedades manifestadas en la

seal del habla o el espectro sobre el tiempo. El primer paso en esta aproximacin es la
segmentacin y el etiquetado representando las propiedades acsticas como unidades
fonticas. El segundo paso es determinar las palabras vlidas para crear un conjunto de
fonemas que tienen un sentido sintctico y un significado semntico. Un problema de
esta aproximacin es la dificultad de decodificar las unidades fonticas de las palabras
de una cadena, denominado problema de acceso lxico.
La aproximacin por patrones de reconocimiento utiliza los patrones de habla

directamente sin determinar explcitamente sus caractersticas y su segmentacin. El
mtodo tiene dos pasos, uno es entrenamiento de los patrones del habla y el otro es el
reconocimiento de patrones a partir de comparacin de patrones. Este tipo de
caracterizacin del habla por entrenamiento es llamado clasificacin de patrones ya que
la mquina aprende las propiedades acsticas de clasificacin del habla.
La aproximacin por inteligencia artificial es un hbrido de las dos

aproximaciones anteriores, en la cual se explotan las ideas y conceptos de ambos
mtodos. Utiliza el mecanismo de procedimientos de reconocimiento de acuerdo a como
una persona usa su inteligencia, visualizando, analizando y finalmente tomando una
decisin sobre la medida de las caractersticas acsticas. Usa mtodos puros de fontica
acstica como integracin fontica, lxica, sintctica, semntica, etc. aprendiendo y
adaptndose en el tiempo. El uso de redes neuronales para el aprendizaje de la relacin
entre los eventos fonticos y todo lo que se conoce de las entradas, sirve para la
discriminacin entre clases de sonidos similares. La aplicacin de redes neuronales
conjuntamente con otras aproximaciones en cuanto a sus conceptos e ideas son
relativamente nuevas para problemas de reconocimiento del habla.
3.1 APROXIMACIN USANDO FONTICA ACSTICA
El primer paso en este procedimiento es el sistema de anlisis del habla, un

mtodo de medicin de caractersticas; ste proporciona una representacin aproximada,
espectral, de las caractersticas de variacin en la seal del habla. Las tcnicas ms
comunes para el anlisis espectral son el mtodo de clasificacin por banco de filtros y
el mtodo de clasificacin de coeficientes de prediccin lineal (LPC).
El siguiente paso es la deteccin de caractersticas estables. La idea aqu es
convertir las mediciones espectrales en un conjunto de caractersticas que describan las
extensas propiedades acsticas de las diferentes unidades fonticas. El tercer paso es la
segmentacin y etiquetacin de las frases, en donde se intenta establecer las regiones
para cada unidad fontica. El resultado de este ltimo paso es el enrejado de los
fonemas.
Para la clasificacin de las vocales se tiene un rbol de caractersticas, con el

cual se realizan varias pruebas. La primera separa las vocales con baja F1 (primera
formante) de las vocales con alta F1. Cada subconjunto es ahora clasificado como vocal
aguda si F2 (segunda formante) tiene alta frecuencia y como vocal grave si F2 es baja.
La tercer prueba se basa en la duracin del segmento, largo o corto, con lo que se
separan las vocales tensas (segmento largo) de las flojas (segmento corto). Una ltima
prueba se hace con los valores de las formantes F1 y F2 para separarlas en vocales
planas (si F1+F2 excede un umbral T dado) o simples (si F1+F2 esta por debajo del
umbral T).
La clasificacin de las vocales es una pequea parte del proceso de etiquetar

fonemas, es decir, faltara la clasificacin de las otras clases de sonidos. Para esto se
utiliza un rbol binario. La primera decisin es sonido o silencio?. La segunda es
sonora o no sonora? Basada en la periodicidad de la seal, si son no sonoras pueden ser
precedidas por silencio o sonido (no sonoras de paro o no sonoras fricativas). Otra
prueba de energa separa a las vocales fricativas, de alta frecuencia, de los otros sonidos
sonoros, de baja frecuencia. Luego los sonidos sonoros de paro se separaran de la
siguiente manera: los que estn precedidos por silencio (consonantes sonoras oclusivas),
o por sonido si son precedidos por sonido; finalmente se clasifican en vocales o a la
clasificacin de consonantes sonoras. Este tipo de clasificadores tienen problemas ya
que por ejemplo no diferencia los diptongos de las vocales, entre otros.
3.2 APROXIMACIN POR RECONOCIMIENTO DE PATRNES

ESTADISTICOS
Este mtodo tiene cuatro pasos:
1. Medicin de caractersticas, en el cual una secuencia de mediciones es hecha

sobre la seal de entrada para definir un patrn de prueba. Para seales del habla
las mediciones de caractersticas son usualmente la salida de algn tipo de
tcnica de anlisis espectral como analizador de banco de filtros, anlisis de
coeficientes de prediccin lineal o anlisis de la transformada discreta de Fourier
(DFT).
2. Patrn de entrenamiento, en el cual uno o ms patrones de prueba

correspondientes a sonidos de la voz de la misma clase son usados para crear un
patrn representativo de las caractersticas de cada clase llamado patrn de
referencia.
3. Patrn de clasificacin, aqu, el patrn de prueba desconocido es comparado

con cada una de las clases de patrones de referencia y se calcula una medida de
similitud, distancia espectral entre vectores, entre el patrn de prueba y cada uno
de los patrones de referencias.
4. Decisin lgica, en donde los resultados finales de la similitud del patrn de

referencia son usados para decidir a cual patrn se refiere o cual el que ms se
asemeja al patrn de prueba desconocido.
3.3 APROXIMACION POR INTELIGENCIA ARTIFICIAL (IA)
La idea bsica de este mtodo es recopilar e incorporar conocimiento de una

variedad de fuentes de conocimiento y producir una solucin al problema. La IA al usar
la segmentacin y etiquetacin puede aumentar el conocimiento acstico (medidas
espectrales con presencia o ausencia de caractersticas) usado generalmente con
conocimiento lxico (descomposicin de palabras en sonidos), sintctico (combinacin
de palabras gramaticalmente correctas en sentencias o frases de acuerdo al lenguaje),
semntico (entendimiento del dominio del contexto para la validacin de sentencias o
frases) y pragmtico (necesario para resolver la ambigedad del significado de las
palabras).
Hay varias formas de integrar las fuentes de conocimiento al reconocedor de

voz, la aproximacin mas estandarizada es bottom-up (de abajo hacia arriba) donde el
nivel ms bajo de procesamiento (deteccin de caractersticas, decodificacin fontica,
etc.) precede al nivel ms alto (decodificacin lxica, modelo del lenguaje, etc.). Otra
alternativa es el procesamiento top-down (de arriba hacia abajo) en el cual el lenguaje
modelo genera una palabra de hiptesis que es comparada con la seal del habla, de ah
se toma en cuenta el significado semntico y sintctico de las palabras construidas. Es
un mtodo que usa la integracin de conocimientos.
Una tercera alternativa es la aproximacin de blackboard (pizarrn), en este,

todas las fuentes de conocimientos son consideradas independientemente, una hiptesis
y prueba sirven como medio bsico de comunicacin entre las fuentes de conocimiento,
es decir hay una integracin de elementos. La actividad del sistema opera
asincrnicamente.
Dos conceptos clave en la Inteligencia Artificial son la adquisicin de

conocimiento automticamente (aprendizaje) y la adaptacin. Una forma en la cual
estos conceptos han sido implementados es mediante la aproximacin de redes
neuronales.
Un sistema de reconocimiento del habla basado en el modelo de percepcin que

el ser humano utiliza, es un sistema que cuenta con un analizador modelo de odo que
recibe la entrada acstica, la cual, provee informacin espectral acerca de la seal y
almacena la informacin sensorial. Otra informacin (vista y tacto) esta disponible para
almacenar informacin sensorial y provee de varios niveles de caractersticas de
descripcin del habla. Los trminos largos (estticos) y los cortos (dinmicos) de
memoria estn disponibles para la deteccin de caractersticas. Finalmente despus de
varios estados de refinamiento de deteccin de caractersticas, la salida final del sistema
es una interpretacin de la informacin de la entrada acstica.
Ahora bien, como un modelo del entendimiento del habla del ser humano, los
variados anlisis de caractersticas representan el procesamiento de varios niveles en las
formas de rutas neuronales del cerebro y los trminos cortos y largos de la memoria
proveen un control externo del proceso neuronal, algo que aun no est bien entendido.
3.3.1 Fundamentos de Redes Neuronales
Una red neuronal (llamada tambin modelo de conexiones) es una red o un

modelo de procesamiento paralelo distribuido (PDP, parallel distribuited processing), es
bsicamente una densa interconexin de elementos simples, no lineales y
computacionales.
Fig. 3.1. Elementos simples computacionales de una red neuronal.
Donde las N entradas, etiquetadas con x0, x1, x2,, xn-1, se suman con sus pesos
w0, w1, w2,, wn-1, adems utilizando un umbral, y una compresin no lineal de
compresin da la salida, definida como:
N
y = f ( wi xi ) (3.1)
i=0
donde es un umbral interno y f es un funcin no lineal de una del tipo de las

siguientes:
1. limite inflexible +1, x <= 0

f(x)=
-1, x > 0 (3.2)
2. funcin sigmoidal
f(x) ) tanh ( x), >0 (3.3)

f(x) = 1 , >0 (3.4)
x
1+e
Las sigmoides no linearizadas son ms comnmente usadas pues son continuas y

diferenciables.
Las bases biolgicas de las redes neuronales estn en el modelo de neuronas de

McCullough y Pitts del sistema nervioso humano. Este se basa en las propiedades antes
mencionadas sobre el modelo del entendimiento humano de la voz, incluyendo la
excitacin del potencial de umbral del disparo de las neuronas.
3.3.2 Topologas de Redes Neuronales
Hay varios resultados en el diseo de las llamadas redes neuronales artificiales

(RNA), estos modelos son psicolgicamente fenomenales, donde se puede definir las
conexiones arbitrariamente de los elementos computacionales. Hay tres topologas
estndar bien conocidas:
perceptron simple/multicapa.
Hopfield o redes recurrentes.
Kohonen o redes de auto-organizacin.
En el perceptron simple o multicapa, las salidas de uno o ms elementos simples

computacionales de una capa forman la entrada de un nuevo conjunto de elementos
simples de la siguiente capa. La distincin entre capas de un perceptron multicapa es no
lineal entre cada una de las capas que forman el mapeo entre las variables de entrada y
salida teniendo un clasificador/discriminador de propiedades. Un perceptron multicapa
que tenga al menos una capa oculta (intermedia) puede realizar un arbitrario conjunto
de regiones de decisin en el espacio. As, por ejemplo las entradas a un perceptron
multicpa pueden ser las primeras dos resonancias del habla (F1 y F2), la red puede
implementar un conjunto de regiones de decisin que particiona el espacio (F1-F2) en
los 10 estados estables de las vocales.
La red de Hopfield es una red recurrente en la cual la entrada de cada uno de los
elementos computacionales son las entradas pero tambin las salidas. As con las
entradas y salidas indexadas por tiempo, xi(t) y yi(t), y los pesos conectados al ith nodo y
el jth nodo denotado por wij, la ecuacin bsica para el ith elemento recurrente
computacional es:
yi(t) = f [ xi(t) + wij yj (t-1) ] (3.5)

j
y una red neuronal con N entradas y N salidas. La propiedad ms importante de las

redes de Hopfield es que wij = wji y la recurrencia computacional es ejecutada
asincrnicamente para una entrada constante arbitraria, la red podra eventualmente
arreglarse fijando un punto donde yi(t)=yi(t-1) para toda i. Esta relacin de puntos fijos
representa la configuracin estable de la red y puede ser usada en aplicaciones que
tengan un conjunto fijo de patrones para ser apareados en la forma de un contenido
direccionable o de memoria asociativa.
El tercer tipo popular de red neuronal es la topologa de Kohonen, mapa de
caractersticas auto organizables, este se basa en un procedimiento de agrupamiento que
provee de un cdigo de patrones estables en el espacio de entrada que caracteriza a un
vector arbitrario de entrada, por un pequeo nmero de grupos representativos.
Para desarrollar una red se deben tomar en cuenta cuatro caractersticas para
especificar la implementacin en una red neuronal arbitraria:
1. Nmero y tipo de entradas. Esto es elegir las caractersticas para los patrones
de clasificacin del sistema.
2. Conectividad de la red. Esto es el tamao de la red, es decir, el nmero de

capas ocultas y el nmero de nodos en cada capa entre la capa de entrada y la de
salida. Para esto no se tiene ninguna regla. La intuicin indica que una red con
muchas capas ocultas es difcil de entrenar, y una red con pocas capas ocultas no
sera capaz de clasificar correctamente.
3. Eleccin de la compensacin (offset). La eleccin del umbral para cada

elemento computacional puede ser hecha como parte del procedimiento de
entrenamiento, en el cual se encuentran los valores para los pesos de las
interconexiones (wij) y del umbral .
4. Eleccin de la no linealidad. La experiencia indica que la eleccin exacta de

una f no lineal, no es muy importante en trminos de la transformacin de la red.
Entonces, f puede ser continua y diferenciable para el algoritmo de
entrenamiento que se aplique.
3.3.3 Entrenamiento de los parmetros de una red neuronal
La especificacin de una red neuronal, los valores para los coeficientes de los
pesos y el umbral para cada elemento computacional pueden ser determinados
basndose en un conjunto etiquetado de datos de entrenamiento. Para el entrenamiento,
se asocian las entradas con las salidas. Para un perceptron multicapa se hace una simple
iteracin, existe un procedimiento de convergencia para escoger el conjunto de
parmetros con valores aproximados asinttica mente a un punto estacionario con una
cierta propiedad ptima; este procedimiento se le llama aprendizaje por retro-
propagacin.
Primero se inicializan los pesos (en el tiempo t=0), luego al adquirir los valores
de la entrada, se calcula la salida mediante alguna funcin de las mencionadas, luego se
van adaptando los pesos y se itera varias veces para obtener los pesos correctos.
Ciertamente las redes pueden implementar un grado masivo de computacin en

paralelo, adems son sistemas robustos y tolerantes a fallas, pueden irse modificando
hasta encontrar las mejores condiciones de procesamiento, adems proveen de una
forma conveniente de implementacin de transformaciones no lineales entre entradas
arbitrarias y salidas siendo frecuentemente ms eficientes que otras alternativas no
lineales.
4. PROCESAMIENTO DE SEALES Y MTODOS DE
ANLISIS PARA RECONOCIMIENTO DE LA SEAL DE
LA VOZ
El sistema de reconocimiento de la seal de la voz consta de una coleccin de

algoritmos de una amplia variedad de disciplinas, incluyendo reconocimiento de
patrones estadsticos, teora de la comunicacin, procesamiento de la seal, matemticas
combinatorias y lingstica, entre otros. Adems cada una de estas reas es dependiente
en variados grados en diferentes reconocedores, sin embargo el ms grande
denominador de todo sistema de reconocimiento es el procesamiento de la seal front-
end, el cual convierte la forma de la seal de la voz a algn tipo de representacin
paramtrica para su posterior anlisis y procesamiento.
Existe un amplio rango de posibilidades para representar paramtricamente la

seal de la voz. Entre stas se incluye la energa en corto tiempo, los grados de
cruzamiento por cero, los grados de cruzamiento de nivel y diversos parmetros
relevantes. Probablemente la ms importante representacin paramtrica de la seal de
la voz es el mapeo espectral de corto tiempo. Los mtodos de anlisis espectral se
consideran por lo general el centro del procesamiento de la seal front-end en un
sistema de reconocimiento de la seal de la voz.
4.1 MODELOS DE ANLISIS ESPECTRAL
Existen dos modelos de anlisis espectral:
a) Modelo de Reconocimiento de Patrones.

b) Modelo de Fontica Acstica.
Ambos modelos se muestran en la Fig. 4.1
Los tres pasos bsicos en el modelo de Reconocimiento de Patrones son:
1.- Medida de los patrones, previa creacin del conjunto de patrones.

2.- Comparacin de Patrones.
3.- Toma de decisin.
La funcin de los bloques de medida de parmetros es representar los eventos

acsticos relevantes en la seal de la voz en trminos de un compacto y eficiente
conjunto de parmetros de la seal de la voz. Adems la eleccin de los parmetros a
utilizar se determina por otras consideraciones, por ejemplo la eficiencia computacional,
el tipo de implementacin o la memoria disponible; la forma en la cual la representacin
escogida se calcula tiene como estricta base las consideraciones de procesamiento de
seal.
De una manera similar, en el modelo fontico acstico de reconocimiento el

primer paso en el procesamiento es esencialmente idntico al utilizado en el enfoque de
reconocimiento de patrones llamado, medida de los parmetros- de ah en adelante los
pasos que siguen son notablemente diferentes. Aqu, es claro que un buen
entendimiento fundamental de la forma en la cual usamos tcnicas de procesamiento de
seal para implementar la fase de medida de los parmetros de los reconocedores es
obligatorio para el entendimiento de varios enfoques del reconocimiento de la seal de
la voz que han sido propuestos y estudiados en la literatura.
MODELO DE RECONOCIMIENTO DE PATRONES
PARAMETROS DE
REFERENCIA
SEAL DE
VOZ CONJUNTO SEAL
PARAMETROS DE COMPARACIN DE REGLA DE RECONOCIDA
DE MEDICIN PATRONES PATRONES DECISIN
MODELO DE FONTICA ACUSTICA
DETECTOR DE CARACTERISTICAS
CARIACTERISTICA DE VOCABULARIO
1
SEAL DE COMBINADOR DE
VOZ PARAMETROS CARACTERISTICAS, SEAL
DE MEDICIN DECISIN LGICA PROVADOR DE RECONOCIDA
HIPOTESIS
DETECTOR DE
CARIACTERISTICA
Q
Fig. 4.1 (a) Reconocimiento de patrones. (b) Fontica Acstica.
Las dos elecciones ms comunes del procesamiento de la seal front-end para el

reconocimiento de la seal de voz son:
- Modelo de Banco de Filtros.

- Modelo LPC.
La estructura completa del modelo de Banco de Filtros es mostrada en la Fig. 4.2.
FILTRO
PASABANDA X n (eiw1 )
1
SEAL DE
VOZ
s(n)
FILTRO iwQ
PASABANDA X n (e )
Q
Fig. 4.2 Modelo de Anlisis de Banco de Filtros.
La seal de voz, s(n), se pasa a travs de un banco de Q filtros pasa banda, los
cuales abarcan rangos de frecuencia de inters en la seal, por ejemplo 100-3000 Hz
para seales de calidad telefnica o 100-8000 Hz para seales de banda ancha. Los
filtros individuales pueden y generalmente hacen traslapes en frecuencia, como se
muestran en la parte inferior de la Fig. 4.2. La salida del ith filtro pasabanda, Xn(ejwi)
donde wi es la frecuencia normalizada 2fi / Fs, con Fs la frecuencia de muestreo, es la
representacin espectral en tiempo corto de la seal s(n), al tiempo n, como es vista a
travs del ith filtro pasa banda con frecuencia central wi. Esto puede fcilmente ser visto
como en el modelo de banco de filtros, cada filtro pasa banda procesa la seal de voz
independientemente para producir la representacin espectral Xn.
El anlisis del enfoque LPC, como se ilustra en la Fig. 4.3 representa el anlisis
espectral sobre bloques de seal de voz (cuadros de seal de voz) con un modelo de slo
polos.
N M
SEAL DE
VOZ
s(n)
BLOQUE DENTRO ANLISIS CONVERSIN DE
DE CUADROS ESPECTRAL PARMETROS
LPC LPC
an cn
Fig. 4.3 Modelo de Anlisis LPC.
Esto significa que la representacin espectral resultante Xn(eiw) es limitada para

ser de la forma /A(eiw), donde A(eiw) es un polinomio de orden p con transformada z
A(z) = 1 + a1z -1 + a 2 z -2 + + a p z -p .
El orden p es el llamado orden de anlisis LPC. De esta manera la salida del

bloque de anlisis espectral es un vector de coeficientes, parmetros LPC, que
especifica paramtricamente el espectro de un modelo solo polos que mejora la
combinacin del espectro de la seal sobre el periodo de tiempo en el cual el cuadro de
las muestras de la seal de voz fueron acumuladas.
Aunque se ha propuesto procesadores alternativos del procesamiento de la seal

front-end para sistemas del reconocimiento de la voz, los modelos LPC y banco de
filtros han dado por ellos mismos excelentes resultados en la prctica de los sistemas de
reconocimiento de la seal de la voz.
4.2 EL PROCESADOR DE BANCO DE FILTROS FRONT-END
Un diagrama de bloque de la estructura cannica de un analizador completo de

banco de filtros front-end se muestra en la Fig. 4.4
FILTRO NO FILTRO REDUCCIN COMPRESIN

PASABANDA s1 (n) LINEARIDAD v1 (n) PASABAJAS DEL RANGO DE u1 (n) DE x1 (m)
1 MUESTREO AMPLITUD
s (n)
FILTRO NO FILTRO REDUCCIN COMPRESIN

PASABANDA sQ (n) LINEARIDAD vQ (n) PASABAJAS tQ (n) DEL RANGO uQ (n) DE xQ (m)
Q DE AMPLITUD
MUESTREO
Fig. 4.4 Modelo de Anlisis completo de Banco de Filtros.
La seal de voz muestreada, s(n), es pasada a travs de un banco de Q filtros

pasabanda, dando las seales
si (n) = s(n) * h i (n), 1 i Q (4.1a)
M i 1
= h (m)s(n m),
m=0
i (4.1b)
donde hemos asumido que la respuesta de impulso del i-simo filtro pasabanda es hi(m)
con una duracin de Mi muestras; por eso, usamos la representacin de convolucin de
la operacin de filtrado para dar una expresin explcita para si (n), el filtrado pasabanda
de la seal de la voz. Ya que la propuesta del analizador del banco de filtros es dar una
medida de la energa de la seal de la voz en una banda de frecuencia dada, cada una de
las seales pasabanda, si(n), se pasa a travs de una no linealidad, por ejemplo un
rectificador de onda completa o de media onda. La no linealidad cambia el espectro de
la seal a la banda de frecuencias bajas tan bien como crea imgenes de alta frecuencia.
Se utiliza un filtro de pasa bajas para eliminar imgenes de alta frecuencia, dando un
conjunto de seales, ui (n), 1 i Q, el cual representa una estimacin de la energa de
la seal de la voz en cada una de las Q bandas de frecuencia.
Para una comprensin ms completa de los efectos de la no linealidad y el filtro

pasa bajas, asumamos que la salida del i-simo filtro pasabanda es una senosoidal pura a
frecuencia wi, es decir
si (n) = i sen (i n ). (4.2)
Este supuesto es vlido para seales de voz en el caso de sonidos de estado

vibratorio constante, cuando la banda ancha del filtro es suficientemente estrecha, para
que as, un solo armnico de seal de voz se pase por un filtro pasabanda. Si usamos un
rectificador de onda completo como la no linealidad, esto es
f(si(n)) = si(n) para si(n) 0

= - si(n) para si(n) < 0. (4.3)
entonces, podemos representar la salida de la no linealidad como
v i (n) = f (si (n)) = si (n) . w(n), (4.4)

donde
+1 si si(n) 0
w(n) =
-1 si si(n) < 0 (4.5)
como se ilustra en la Fig. 4.5.
Fig. 4.5 Formas tpicas y espectros para el anlisis de una senosoidal pura en el modelo de banco de filtros.
Ya que la salida de la no linealidad puede ser vista como una modulacin en tiempo,
como se muestra en la ecuacin (4.4), en la frecuencia dominante obtenemos el
resultado como
Vi (eiw ) = Si (eiw ) W(eiw ), (4.6)
Donde Vi(eiw), Si(eiw) y W(eiw) son las transformadas de Fourier de las seales vi
(n), si(n) y w(n), respectivamente, y es la convolucin circular. El espectro Si(eiw) es
un solo impulso a w0 = wi, mientras que el espectro W(eiw) en un conjunto de impulsos
en las frecuencias del armnico impar wq = wiq, q = 1,3, , qmax. Por eso el espectro de
Vi(eiw) es un impulso a w = 0 y un conjunto de impulsos de amplitudes ms pequeas a
wq = wiq, q = 2, 4, 6,. El efecto del filtro pasa bajas es retener la componente dc de
Vi(eiw) y filtrar para afuera los componentes de alta frecuencia debido a la no linealidad.
La Fig. 4.6 ilustra formas de onda tpicas de s(n), si(n), w(n) y vi (n) para una
breve seccin de la seal de voz vibrante (20 msec) procesada por un canal de banda
ancha estrecho con centro de frecuencia de 500 Hz (la frecuencia de muestreo para este
ejemplo es 10,000Hz). Tambin se muestran las magnitudes espectrales resultantes para
las cuatro seales. Se puede apreciar que | Si(eiw) | tiene la mayora de su energa
alrededor de los 500 Hz (w = 1000), mientras que | W(eiw) | ,el cual es quasiperidico,
se aproxima a una seal armnica impar con picos en 500, 1500 2500 Hz. El espectro de
la seal resultante, |Vi(eiw) |, muestra la deseada concentracin de energa de baja
frecuencia tan bien como los no deseados picos espectrales en 1000 Hz , 2000 Hz, etc.
El papel del filtro pasa bajas es eliminar los no deseados picos espectrales.
Fig. 4.6 Formas de onda y espectros tpicos de una seal de voz en el modelo de anlisis de banco de filtros.
El ancho de banda de la seal, vi (n), esta relacionada par el ms rpido rango de

movimiento de armnicos de la seal de voz en una banda estrecha y es generalmente
reconocido para estar sobre el orden de 20-30 Hz. Por eso, los dos bloques finales del
modelo cannico de banco de filtros de la Fig.4.4 son una caja de reduccin de rango de
muestras en el cual las seales filtradas pasabajas, ti(n), son remplazadas sobre un
rango del orden de 40-60 Hz, y el rango dinmico de la seal es comprimida usando un
plan de amplitud de compresin (p.e. codificacin logartmica, -codificacin baja).
Considere el diseo del canal de banco de filtros con Q = 16 para un ancho de

banda de la seal de voz donde la ms alta frecuencia de inters es 8 kHz. Asuma que
usamos un rango de muestro Fs = 20 kHz sobre los datos de la seal de la voz para
minimizar los efectos de superposicin espectral en la conversin de analgico a digital.
El rango de informacin (rango de bit) de la seal de voz sin refinar esta sobre el orden
de 240 kbits por segundo (20 k muestras por segundo preve 12 bits por muestra). En la
salida del analizador, si usamos un rango de muestreo de 50 Hz y usamos un compresor
de amplitud logartmica de 7 bits, conseguimos un rango de informacin de 16 canales
con 50 muestras por segundo por 7 bits por muestra de cada canal o lo que es lo mismo
5600 bits por segundo. As, para este ejemplo simple hemos logrado una reduccin de
rango de bit de cerca de 40 a 1 y con suerte para una reduccin de datos podra resultar
en una representacin mejorada de la informacin significante en la seal de voz.
El tipo de banco de filtros ms comn usado para el reconocimiento de la seal

de voz, es el filtro de bancos uniforme.
4.2.1 Implementacin del Banco de Filtros
Un Banco de Filtros puede ser implementado en muchas formas, dependiendo

sobre el mtodo usado para disear los filtros individuales caen en dos amplias clases:
1. impulso de respuesta infinita (IRI)
2. impulso de respuesta finita (IRF).
Los filtros IRI (tambin comnmente llamados en la literatura filtros recursivos),

son los ms sencillos, y generalmente la implementacin ms eficiente para realizar
cada filtro individual pasabanda es como una cascada o estructura paralela.
Para filtros IRF, hay bastantes posibles mtodos de implementacin en el banco

de filtros. El ms sencillo y ms fcil de implementar es la estructura de forma directa.
En este caso, si denotamos la respuesta del impulso para el ith canal como hi(n), 0 n
L-1, entonces la salida del ith canal, xi(n), puede ser expresada como la convolucin
discreta finita de la seal de salida s(n), con el impulso de respuesta hi(n), es decir:
x i (n) = si (n) * h i (n) (4.7a)

L 1
= h (m)s(n m),
m=0
i (4.7b)
El clculo de la ecuacin (4.7), es iterada con cada canal i para i = 1,2,...Q. Las
ventajas de la estructura de forma directa son su simplicidad y que funciona para hi(n)
arbitrarias. La desventaja de esta implementacin son los altos requerimientos
computacionales. Por eso, para un banco de filtros IRF con Q canales, donde cada filtro
pasa bandas IRF tiene una respuesta de impulso de L muestras de duracin, requiere
CDFIRF = LQ .,+ (multiplicacin, suma) (4.8)
para una evaluacin completa de xi(n), i = 1,2,..., Q, en un solo valor de n.
Una alternativa de implementacin menos costosa, puede ser derivada para el

caso en el cual cada impulso de respuesta del filtro pasabanda puede ser representada
como una ventana pasa bajas arreglada, w(n), modulada por la exponencial compleja,
eiwin que es,
h i (n) = w(n) eiw i n . (4.9)
De ecuaciones anteriores tenemos:
x i (n) = w(m)eiwi m s (n m)
m
= s (m) w(n m)eiwi ( n m )

m
=e iw i n
s(m)w(n m)e
m
iwi m
(4.10a)
= eiw i n S n (eiwi ) (4.10b)
donde Sn(eiwi) es la transformada de Fourier de corto tiempo de s(n) con frecuencia wi

=2f. La importancia de la ecuacin 4.10 es que procedimientos eficientes a veces
existen para la evaluacin de la transformada de Fourier de corto tiempo usando
mtodos FFT.
4.2.2 Consideraciones para los Bancos de Filtros de Reconocimiento de la Seal de

Voz.
La primera consideracin para cualquier banco de filtros es el tipo de filtro

digital usado. Las opciones de diseo son IRI (recursivas) y IRF (no recursivas). Los
diseos IRI tienen la ventaja de ser implementados en estructuras simples y eficientes.
La gran desventaja de los filtros IRI es que su fase de respuesta es no lineal, por eso,
para minimizar esta desventaja usualmente se hace un tratado entre las caractersticas de
magnitud ideal que pueden fcilmente ser realizadas, y las caractersticas de la fase no
ideal. Por otra parte, filtros IRF pueden lograr fase lineal sin comprometer la habilidad
para aproximar las caractersticas de magnitud ideal, sin embargo, computacional mente
son costosas en implementacin. Para aplicaciones de reconocimiento de la seal de
voz, una estructura FFT puede algunas veces ser aplicada para aliviar
considerablemente la ineficiencia computacional de los bancos de filtros IRF; por eso
las estructuras de bancos de filtros ms prcticas usan filtros IRF.
Una vez que el tipo de filtro es decidido, la siguiente consideracin es el nmero

de filtros a ser usados en el banco de filtros. Para bancos de filtros uniformes, el nmero
de filtros, Q, no puede ser muy pequeo o adems la habilidad del banco de filtros para
resolver el espectro de seal de voz es muy debilitado. Por eso, valores de Q menores
de 8 generalmente son evitados. Similarmente, el valor de Q no puede ser muy grande, a
menos que haya un considerable nmero de filtros traslapados, porque el ancho de
banda del filtro podra ser eventualmente muy estrecho para algunos hablantes (por
ejemplo, alto pitch para hablantes femeninos o nios) y habra una alta probabilidad de
que algunas bandas podran tener extremadamente baja energa de la seal de la voz.
Por es los sistemas prcticos tienden a tener valores de Q32. Adems los bancos de
filtros uniformemente espaciados han sido muy usados para el reconocimiento, muchos
sistemas prcticos han usado espaciamiento no uniforme en un esfuerzo para reducir en
general la computacin y para caracterizar el espectro de seal de voz en una manera
considerada ms consistente con la percepcin humana.
Una ltima consideracin para analizadores de bancos de filtros prcticos es la

eleccin de la no linealidad y filtros pasa bajas usados en la salida de cada canal. Por lo
general, la no linealidad ha sido un rectificador de onda completo (Full Wave Rectifier
FWR), un rectificador de onda medio (Half Wave Rectifier HWR). El espectro
resultante es solo dbilmente sensitivo a la no linealidad. El filtro pasa bajas usado en la
prctica, vara de un simple integrador para una buena calidad del filtro pasa bajas IRI
(tpicamente un filtro Bessel).
4.3 MODELO DE CODIFICACIN LINEAL PREDICTIVO PARA

RECONOCIMIENTO DE LA SEAL DE VOZ
La teora de la codificacin predictiva lineal (LPC, Linear Predictive Coding),

aplicada a la seal de voz, ha sido bien entendida por muchos aos. Ahora
describiremos las bases de cmo el modelo LPC ha sido aplicado en sistemas de
reconocimiento de seal de voz.
Antes de describir un procesador general LPC front-end para reconocimiento de

seal de voz, vale la pena revisar las razones de por que el LPC ha sido tan ampliamente
usado. Algunas de ellas son:
1. El LPC provee un buen modelo de seal de voz. Esto es esencialmente verdadero

para el estado quasiestacionario de las regiones vibratorias de la seal de voz en
el cual el modelo solo polos de LPC provee una buena aproximacin para la carta
espectral de la zona vocal. Durante la no vibracin y las regiones transitorias de
la seal de voz, el modelo LPC es menos efectivo que para regiones vibratorias,
pero todava provee un modelo aceptable para propsitos de reconocimiento de
la seal de voz.
2. La forma en que el LPC es aplicado al anlisis de la seal de voz permite una

razonable separacin de la zona de la fuente vocal.
3. El LPC es un modelo analticamente tratable. El mtodo del LPC es

matemticamente preciso y sencillo de implementar en software o hardware. La
computabilidad que envuelve al procesamiento del LPC es considerablemente
menor a la requerida para la implementacin de un modelo de banco de filtros
descrita anteriormente.
4. El modelo LPC trabaja bien en la aplicacin de reconocimiento. La experiencia

ha mostrado que los resultados de los reconocedores de la seal de voz, basados
en LPC front-end son mucho mejores, comparados con reconocedores basados en
banco de filtros front-end.
Basados en las consideraciones antes mencionadas, el procesamiento LPC fornt-
end, ha sido usado en un gran nmero de reconocedores.
4.3.1 El Modelo LPC
La idea bsica detrs del modelo LPC, es que dada una muestra de la seal de
voz en un tiempo n, s(n) puede ser aproximada como una combinacin lineal de las
muestras de seal de voz p, tal como:
s(n) a1 s (n 1) + a2 s (n 2) + ... + a p s (n p), (4.11)
donde los coeficientes a1, a2, ...,ap son supuestas constantes sobre el cuadro de anlisis
de seal de voz. Convertimos la ecuacin 4.11 a una igualdad, incluyendo un trmino de
excitacin, Gu(n) dando:
p
s(n) = ai s(n i ) + Gu (n), (4.12)
i =1
donde u(n) es una excitacin normalizada y G es la ganancia de la excitacin. Para

expresar la ecuacin (4.12) en el dominio z, usamos la relacin:
p
S(z) = ai z i S ( z ) + GU ( z ), (4.13)
i =1
Llevando a la funcin de transferencia
S ( z) 1 1
H ( z) = = p
= , (4.14)
GU ( z ) A( z )
1 ai z i
i =1
La interpretacin de la ecuacin (4.14) es mostrado en la Fig. 4.7 el cual muestra

el enfoque de excitacin normalizada, u(n)
u(n) s(n)
A(z)
G
Fig. 4.7 Modelo de Prediccin Lineal de la seal de voz.
Basados en nuestro conocimiento de que la funcin actual de excitacin para la

seal de voz es esencialmente cualquier tren de pulsos cuasi peridico (para sonidos de
seal de voz vibrantes) o una fuente de ruido aleatoria (para sonidos no vibrantes), el
modelo apropiado de sntesis para la seal de voz, correspondiente al anlisis LPC es
como se muestra en la Fig. 4.8 Aqu la fuente de excitacin normalizada escogida para
una entrada, cuya posicin es controlada por el carcter de seal de voz vibrante/no
vibrante, en donde se escoge cualquier tren de pulsos cuasi peridicos como la
excitacin para sonidos vibrantes, o una secuencia de ruidos aleatorios para sonidos no
vibrantes. Un apropiado aumento de la fuente G, es estimado de la seal de voz, y la
fuente de escala es usada como entrada para un filtro digital (H(z)), el cual es
controlado por los parmetros de la zona vocal, caractersticos de la seal de voz. Por
eso, los parmetros de este modelo son clasificacin vibrante/no vibrante, duracin del
periodo para sonidos vibrante, el parmetro cualquiera, y los coeficientes del filtro
digital { ak }. Todos estos parmetros varan lentamente con el tiempo.
PERIODO
DE TONO
GENERADOR
DE TREN DE SWITCH DE PARAMETROS
IMPULSOS VIBRATORIA/ DE LA ZONA
NO-VIBRATORIA VOCAL
u(n) FILTRO DIGITAL

DE
TIEMPO VARIADO s(n)
GENERADOR
DE RUIDO G
ALEATORIO
Fig. 4.8 Modelo sintetizado de la seal de voz, basado en el modelo LPC.
4.3.2 El Procesador LPC para Reconocimiento de Voz.
Ahora describiremos los detalles del procesador LPC front-end, que ha sido
muy utilizado en sistemas de reconocimiento de seal de voz.
N M W(n) p
~
s ( n)
BLOQUEO DE
xt (n) ~
xt (n)
ANALISIS
rm (t )
s(n) PREENFASIS CUADRO VENTANEO DE
AUTOCORRELACIN
w(n)
DERIVADA PARAMETROS CONVERSIN ANLISIS

c~m (t ) TEMPORAL DE cm (t ) DE am (t ) LPC
PESO PARAMETROS
LPC
c~m (t )
Fig. 4.9 Diagrama de bloques del procesador LPC para reconocimiento de la voz.
La Fig.4.9 muestra un diagrama de bloque del procesador LPC, los pasos bsicos
en el procesamiento son los siguientes:
1. Pre-nfasis- La seal de voz digitalizada, s(n), es puesto a travs del sistema digital
de bajo orden (tpicamente un filtro IRF de primer orden) para espectralmente
aplanar la seal y para hacerlo menos susceptible a los efectos de precisin finita
despus del procesamiento de la seal. El sistema digital usado en el pre-nfasis es
cualquier arreglo o lentamente adaptivo, por ejemplo, para condiciones de
transmisin promedio, fondos de ruido, o cualquier espectro de seal promedio. Sin
embargo, la red de pre-nfasis ms usado, es el sistema de arreglo de primer orden:
H ( z ) = 1 a~z 1 , 0.9 a 1.0. (4.15)
En este caso, la salida de la red de pre-nfasis, (n) est relacionada con la

entrada de la red, s(n), por la ecuacin de diferenciacin:
~
s (n) = s (n) a~s (n 1). (4.16)
El valor ms comn para esta alrededor de 0.95. Para valores de punto fijo, un
valor normalmente usado es = 15/16 =0.9375. Un simple ejemplo de un preenfatizador
adaptivo de primer orden es la funcin de transferencia
H ( z ) = 1 a~n z 1 , (4.17)
donde n cambia con el tiempo (n), de acuerdo con el criterio de adaptacin escogido.
Una posibilidad es escoger n = rn(1)/rn(0). La Fig. 4.10 muestra las caractersticas de
magnitud de H(eiw) para el valor de = 0.95. Puede ser visto que en w = (mitad del
rango de muestra) hay un aumento de 32 dB en la magnitud, que el que hay para w = 0.
Fig. 4.10 Espectro de magnitud de la red de pre-nfasis del LPC para = 0.95.
2. Determinacin de las Frames - En este paso, la seal de voz preenfatizada (n), es

bloqueada dentro de cuadros de N muestras, con cuadros adyacentes estando
separados por M muestras. La fig. 4.11 muestra los bloques, o frames, dentro de
cuadros para el caso en que M = (1/3)N. El primer frame ilustrado consiste de la
primera muestra de seal de voz N. El segundo frame comienza M nuestras despus
del primero, y se traslapa por N-M muestras. Similarmente, el tercer frame comienza
en la muestra 2M despus del primer frame (o M muestras despus del segundo
frame) y se traslapa por N - 2M muestras.
Fig. 4.11 Seal de voz dentro de cuadros de traslapamiento.
El proceso continua hasta que toda la seal de voz es contabilizada para dentro de uno o
ms frames. Es fcil de ver que si M N, entonces el frame adyacente se traslapa
(como en la Fig. 4.11) y las estimaciones espectrales LPC resultantes sern
correlacionadas de frame a frame; si M << N, entonces las estimaciones espectrales LPC
de frame a frame sern un poco suaves. Por otra parte, si M > N, no habr
traslapamiento entre frames adyacentes. De hecho, algunas de las seales de voz, se
perdern totalmente, es decir, nunca aparecern en un frame de anlisis, y la correlacin
entre las estimaciones espectrales LPC resultantes de frames adyacentes contendrn un
componente de ruido, cuya magnitud incrementa como incrementa M, es decir, mientras
ms seal de voz sea omitida del anlisis. Esta situacin es intolerable en cualquier
anlisis prctico LPC para reconocimiento de voz. Si denotamos el frame lth de seal de
voz por xl(n), y hay L cuadros dentro de toda la seal de voz, entonces:
xl ( n) = ~
s ( Ml + n), n = 0,1,..., N - 1, l = 0,1,..., L 1 (4.18)
Esto es, el primer cuadro de seal de voz, x0(n), abarca las muestras de seal de
voz (0), (1), . . . , (N - 1), el segundo cuadro de seal de voz x1(n) abarca las muestras
de seal (M), (M + 1), . . ., (M + N - 1), y el frame Lth de seal de voz xL-1(n), abarca
las muestras de seal de voz (M(L - 1)), (M(L- 1) + 1), . . . , (M(L - 1) + N - 1). Los
valores tpicos para N y M son 300 y 100 cuando el rango de muestreo de la seal de
voz es 6.67 kHz. Esto corresponde a 45 frames por mseg, separados por 15 mseg, o a
66.7 Hz por frame.
3. Ventaneo - El siguiente paso en el procesamiento es ventanear cada cuadro

individual, para as minimizar la discontinuidad de la seal al principio y fin de cada
frame. El concepto aqu es idntico al discutido con respecto a la interpretacin de la
frecuencia dominante del espectro de tiempo corto; para usar la ventana para centrar
la seal a cero en el comienzo y fin de cada cuadro. Si definimos la ventana como
w(n), 0 n N - 1, entonces el resultado del ventaneo es la seal:
~
xl (n) = xl (n) w(n), 0 n N - 1. (4.19)
Una ventana tpica usada para el mtodo de auto correlacin de LPC (el sistema
ms usado para sistemas de reconocimiento) es la ventana de Hamming, la cual tiene la
forma:
2n
w(n) = 0.54 0.46 cos , 0 n N - 1. (4.20)
N 1
4. Anlisis de Auto correlacin - Cada frame de seal ventaneada es prxima auto
correlacionada, para dar:
N 1 m
rl (m) = ~x (n) ~x (n + m),
n =0
l l m = 0, 1, , p, (4.21)
donde el valor de auto correlacin ms alto, p, es del orden del anlisis LPC. Han sido
usados valores tpicos para p, de 8 a 16; siendo p = 8 el valor ms usado en la mayora
de los sistemas. Un beneficio del anlisis de auto correlacin, es que la auto correlacin
cero-sima, Rl(0), es la energa del frame lth. El frame de energa es un parmetro
importante para sistemas de deteccin de seal de voz.
5. Anlisis LPC - El siguiente paso en el procesamiento es el anlisis LPC; este

convierte cada cuadro de p + 1 auto correlaciones en un conjunto de parmetros LPC
en el cual los coeficientes LPC son los coeficientes de reflexin (o PARCOR), los
coeficientes de la amplia rea de proporcin, los coeficientes abstrales, o cualquier
transformacin deseada de estos conjuntos. El mtodo formal para convertir
coeficientes de auto correlacin a un conjunto de parmetros LPC para el mtodo de
auto correlacin es conocido como el mtodo de Durbin, y puede ser dado
formalmente como el siguiente algoritmo (por conveniencia omitimos l sobre rl(m)):
E(0) = r(0) (4.22)

r (i ) j r (|i j|)
( i 1)

ki = 1ip (4.23)
E ( i 1)
i
(i)
= ki (4.24)
j(i ) = (j i 1) k i i(i j 1) (4.25)
E ( i ) = (1 k i2 ) E (i 1) (4.26)
donde la sumatoria en la Ecuacin 4.23 es omitida para i = 1. El conjunto de

ecuaciones 4.22-4.26 se aplican recursivamente para i = 1, 2, , p, y la solucin final es
dada como:
a m = coeficientes LPC = m( p ) , 1mp (4.27)
k m = coeficientes PARCOR (4.28)
1 km
g m = coeficientes de proporcin de amplia rea = log . (4.29)
1 + km
6. Conversin de Parmetros LPC a Coeficientes Cepstrales - Un conjunto de

parmetros LPC muy importante, el cual puede ser derivado directamente del
conjunto de coeficientes LPC, son los coeficientes cepstrales LPC, c(m). La
recursin:
c0 = ln 2 (4.30a)
m 1
k
cm = a m + c k a m k . 1 m p (4.30b)

k =1 m
m 1
k
cm = c k a m k . m>p (4.30c)

k =1 m
donde 2 es el trmino agregado en el modelo LPC. Los coeficientes cepstrales, los

cuales son los coeficientes de la representacin de la transformada de Fourier del
espectro de magnitud logartmica, han demostrado ser ms robustos que los coeficientes
LPC, los coeficientes PARCOR, o coeficientes de proporcin de amplia rea.
Generalmente, una representacin cepstral con Q > p coeficientes es usada, donde Q
(3/2)p.
7. Parmetros de Peso - A causa de la sensitividad de los coeficientes cepstrales de

bajo orden sobre toda la pendiente espectral y la sensitividad de los coeficientes
cepstrales de alto orden sobre el ruido, ha llegado a ser una tcnica estndar para
ponderar los coeficientes cepstrales por una ventana centrada para minimizar as
estas caractersticas. Un modo formal de justificar el uso de ventanas cepstrales, es
considerar la representacin de Fourier del espectro de magnitud logartmica y el
espectro de magnitud logartmica diferenciada, tal como:

log S (e iw ) = c
m =
m e jwm (4.31)
w
[ ]
log S (e iw ) = ( jm)cm e jwm
m =
(4.32)
La diferencial del espectro de longitud logartmica tiene la propiedad de que

cualquier arreglo de pendiente espectral en el espectro de magnitud logartmica, llega a
ser una constante; adems, cualquier pico espectral prominente en el espectro de
longitud logartmica (por ejemplo, las formantes), es bien preservado como un pico en
el espectro de longitud logartmica diferenciado. Por eso, considerando la multiplicacin
por (-jm) en el espectro de longitud logartmica diferenciado como una forma de peso,
llegamos a:
w
[ iw
]
log S (e ) = c$m e jwm
m =
(4.33)
donde
c$m = cm ( jm). (4.34)

Para lograr la robustez para valores largos de m, es decir, pesos bajos cerca de
m=Q, y para truncar el clculo infinito de la ecuacin 4.33, debemos considerar un peso
ms general de la forma:
c$m = wm cm , 1 m Q. (4.35)
donde un apropiado peso es el levantador pasabanda (filtro en el dominio cepstral)
Q m
wm = 1 + sin , 1 m Q. (4.36)
2 Q
Esta funcin de peso trunca el clculo y enfatiza cm alrededor de m=1 y m=Q.
8. Derivadas cepstrales temporales - La representacin cepstral del espectro de seal

de voz provee una buena representacin de las propiedades espectrales de la seal
para un frame de anlisis dado. Se puede obtener una representacin mejorada
extendiendo el anlisis para incluir informacin acerca de la derivada cepstral
temporal (tanto la primera como la segunda derivada, han sido investigadas a fondo
para mejorar los resultados de sistemas de reconocimiento de seal de voz). Para
introducir orden temporal dentro de representaciones cepstrales, denotamos el mth
coeficiente cepstral en el tiempo t como cm (t ) . Por supuesto, en la prctica el tiempo
de muestra t se refiere al frame de anlisis en lugar de una instancia de tiempo
arbitraria. La forma en la cual la derivada de tiempo cepstral se aproxima es como
sigue: la derivada de tiempo del espectro de longitud logartmica tiene una
representacin en series de Fourier de la forma:

c (t )
t
[ ]
log S (e , t ) = m e jwm
iw
m = t
(4.37)
Por eso, la derivada cepstral temporal debe ser determinada en una manera
apropiada. Ya que es bien sabido que cm (t ) es una representacin del tiempo discreto
(donde t es el frame ndice), usar simplemente una diferencia de primer o segundo orden
es inapropiado para aproximar la derivada ya que resulta muy ruidoso. Por eso, una idea
razonable es aproximar cm (t ) / t con un polinomio ortogonal sobre una ventana de
longitud finita; esto es:
cm (t ) k
= cm (t ) kcm (t + k ), (4.38)
t k = K
donde es una constante de normalizacin apropiada y (2K+1) es el nmero de frames

sobre los cuales la se representa el clculo. Usualmente, un valor de k=3 ha sido
apropiado para el clculo de la derivada temporal de primer orden. Basados sobre el
clculo descrita anteriormente, para cada cuadro t, el resultado del anlisis LPC es un
vector de Q coeficientes cepstrales de peso y un vector de Q derivas de tiempo
cepstrales; esto es:
o' t = (c$1 (t ). c$2 (t )...... c$Q (t ). c1 (t ). c2 (t )..... cQ (t )). (4.39)
donde ot es un vector con 2Q componentes y denota la matriz transpuesta.

Similarmente, si se calculan las derivadas temporales de segundo orden (dando
2 cm (t ) ), stas se aproximan a ot, dando un vector de 3Q componentes.
4.3.3 Parmetros tpicos en un Anlisis LPC.
La computacin de un sistema de anlisis LPC de la Figura 4.9 es especificada

por un nmero variable de parmetros, incluyendo:
N nmero demuestras en el cuadro de anlisis

M nmero de muestras cambiantes entre cuadros
p orden de anlisis LPC
Q dimensin del vector cepstral LPC derivado
K nmero de frames sobre las cuales se calculan las derivadas de tiempo
cepstral.
Adems, cada uno de estos parmetros puede ser variado sobre un amplio rango
de valores, la siguiente tabla muestra valores tpicos para sistemas de anlisis en tres
diferentes rangos de muestreo (6.67 kHz, 8 kHz, 10 kHz).
parmetro Fs = 6.67 kHz Fs = 8 kHz Fs = 10kHz

N 300 (45 mseg) 240 (30 mseg) 300 (30 mseg)
M 100 (15 mseg) 80 (10 mseg) 100 (10 mseg)
P 8 10 10
Q 12 12 12
K 3 3 3
5. ANLISIS PERCEPTUAL LINEAL PREDICTIVO (PLP) DE
LA SEAL DE VOZ
Una nueva tcnica para el anlisis de seal de voz, la tcnica de prediccin lineal
perceptual (PLP), la cual se explica a continuacin. Esta tcnica usa tres conceptos de la
psicofsica del odo para derivar una estimacin del espectro auditivo:
1. la resolucin espectral de la banda crtica
2. la curva de igualdad de igualdad de fuerza (equal-loudness)
3. la ley de energa (intensity-loudness)
El espectro auditivo es aproximado por un modelo solo polos auto regresivo. Un
modelo solo polos de 5 orden es efectivo en ocultar detalles del espectro auditivo de un
hablante dependiente. En comparacin con el convencional anlisis lineal predictivo
(LP), el anlisis PLP es ms consistente con el odo humano. La efectiva segunda
formante F2 y teoras de integracin de percepcin de vocales con picos espectrales de
3.5 Bark se toman tambin en cuenta. El anlisis PLP es computacional mente eficiente
y produce una representacin de la seal de voz de baja dimensin. Se ha encontrado
que estas propiedades pueden ser utilizadas en el reconocimiento automtico de seal de
voz de un hablante independiente.
El modelo solo polos auto regresivo A() del espectro de energa de la seal de
voz P(), estimado por anlisis linear predictivo (LP), es ampliamente utilizado. El
modelo solo polos puede ser descrito en diferentes espacios paramtricos de muchas
formas. Tambin se puede disponer de relativamente simples y a veces computacional
mente eficientes transformaciones entre espacios paramtricos. Cuando el orden del
modelo es elegido adecuadamente, A() aproxima las reas de la concentracin de alta
energa en P(), mientras suaviza la fina estructura armnica y otros detalles espectrales
menos relevantes.
Las reas espectrales de alta energa aproximadas, corresponden a veces a

frecuencias de resonancia de la zona vocal (formantes). El modelo LP asume la funcin
de transferencia solo plos de la zona vocal con un especfico nmero de resonancias
dentro de la banda de anlisis. Cuando este supuesto es violado, P() todava aproxima
la carta espectral de seal de voz, pero se corrompe por anlisis posteriores.
Una vez que vimos el anlisis LP como el principal para obtener la carta
espectral suavizada de P(), podemos ver que una de las principales desventajas del
modelo LP solo polos en anlisis de seal de voz es que A() aproxima P()
igualmente bien a todas las frecuencias de la banda de anlisis. Esta propiedad es
inconsistente con el odo humano. Ms all de los 800 Hz, la resolucin espectral del
odo decrece con frecuencia. Ms aun, para niveles de amplitud tpicamente encontrados
en seales de voz, el odo es ms sensitivo en la mitad del rango de frecuencia del
espectro audible. Consecuentemente, los detalles espectrales de P() no siempre son
preservados o descartados por el anlisis LP de acuerdo a su prominencia auditiva.
Varias tcnicas han sido propuestas para corregir esta inconsistencia. Itahashi y
Yokoyama (1976) pandean el espectro del modelo LP de alto orden dentro de la escala
de mel y la pre-enfatizan a travs de una curva previa equal-loudness a un segundo
modo LP de 6 orden. Makhoul y Cosell (1976) intentan varias funciones espectrales-
pandeadas sobre P() previo a su aproximacin por A(). Strube (1980) propone
espectros pandeados como mel, a travs de un filtrado de todo paso en el dominio del
tiempo.
Hermansky (1982) estudia una clase de tcnicas LP de transformada espectral

que modifican el espectro de energa de la seal de voz previa a su aproximacin por el
modelo auto regresivo. El presente texto adopta este enfoque para estudiar
modificaciones espectrales. El modelo solo polos se aplica a un espectro auditivo de la
siguiente manera:
1. Con la presencia de P() se crea un patrn enmascarado simulado de banda
crtica;
2. se remuestrea el espectro de banda crtica a aproximadamente intervalos de 1
Bark;
3. se obtene un pre-nfasis por una curva fija equal-loudness;
4. se comprime el remuestreo y el espectro pre-enfatizado a travs de la no
linealidad de la raz cbica, simulando la alta intensidad de la ley de energa.
El bajo orden del modelo solo polos muestra cmo un espectro auditivo es
consistente con varios fenmenos observados en la percepcin de la seal de voz.
Adems muestra cmo un modelo puede ser empleado con ventaja en reconocimiento
automtico de seal de voz de un hablante independiente.
5.1 LA TCNICA PLP
En la tcnica PLP, varias propiedades bien conocidas del odo son simuladas por
aproximaciones de ingeniera prctica, y el resultante espectro auditivo de la seal de
voz es simulado por un modelo autor regresivo solo polos. Un diagrama de bloques del
mtodo PLP se muestra en la Fig.5.1.
SEAL DE VOZ
ANLISIS DE LA TRANSFORMADA DE
BANDA CRTICA FOURIER DISCRETA
INVERSA
PREENFASIS SOLUCIN PARA

EQUAL-LOUDNESS COEFICIENTES
AUTO REGRESIVOS
CONVERSIN MODELO ALL-POLE

INTENSIDAD-LOUDNESS
Fig. 5.1 Diagrama de Bloques del Anlisis Perceptual Linear Predictivo (PLP) de Seal de Voz.
5.1.1. Anlisis espectral.
Los pesos para el segmento de seal de voz son obtenidos con la Ventana de
Hamming
W ( n) = 0.54 + 0.46 cos[2n / ( N 1) ] (5.1)
donde N es la longitud de la ventana.
La longitud tpica de la ventana es de los 20 ms. La Transformada Discreta de

Fourier (DFT, Discrete Fourier Transform), transforma el segmento de seal de voz
ventaneado dentro del dominio de la frecuencia. Tpicamente, la Transformada Rpida
de Fourier (FFT, Fast Fourier transform) es usada aqu. Para una frecuencia de muestreo
de 10 kHz, se necesitar una FFT de 256 puntos para transformar las 200 muestras de
seal de voz de la ventana de 20 ms.
Los componentes reales e imaginarios del espectro de seal de voz de tiempo

corto son elevados al cuadrado y sumados para obtener el espectro de energa de tiempo
corto.
P ( ) = Re[ S ( )] 2 + Im[ S ( )] 2 . (5.2)
5.1.2 Resolucin Espectral de la Banda Crtica.
El espectro P(w) es pandeado a travs de su eje de frecuencias w a la frecuencia Bark

por
( w) = 6 ln{w / 1200 + [( w / 1200 ) 2 + 1]0.5 }, (5.3)
donde w es el ngulo de frecuencia en rad/seg. Esta transformacin particular bark-hertz

se debe a Schroeder (1977). El resultante pandeo del espectro de energa. En nuestra
tcnica, la curva de banda crtica esta dad por:
0 para < -1.3,

102.5( + 0.5) para -1.3 -0.5,
() = 1 para -0.5 < < 0.5,
10-1.0( - 0.5) para 0.5 2.5,
0 para > 2.5 (5.4)
Esta forma de pieza acertada para la curva de enmascaramiento de la banda

crtica simulada es nuestra aproximacin a la curva de enmascaramiento asimtrica de
Schroeder (1977). Esta es una aproximacin bastante cruda de lo que es sabido acerca
de la forma de los filtros auditivos. La hazaa lograda por Zwicker (1970) propone que
la forma de los filtros auditivos es aproximadamente constante sobre la escala de Bark.
Los filtros son truncados en 40 dB.
La convolucin discreta de () con (la funcin simtrica y peridica constante)
P(w) muestras producidas del espectro de energa de la banda crtica
2 .5
( i ) = P( ) ().
= 1.3
i (5.5)
La convolucin con las curvas de enmascaramiento de la banda crtica (),

reducen significativamente la resolucin espectral de () en comparacin con el
original P(w); esto se logra con un bajo muestreo de (). En nuestro mtodo, () es
muestreado aproximadamente en intervalos de 1-Bark. El valor exacto del intervalo de
muestreo es escogido para que as un nmero integral de muestras espectrales cubra la
banda de anlisis. Tpicamente, 18 muestras espectrales de [(w)] son usadas para
cubrir los 0 - 16.9 Bark (0 - 5 kHz) del ancho de banda de anlisis en 0.994 Bark pasos.
5.1.3. Preenfasis Equal-loudness
La muestreada [(w)] es pre-enfatizada por la curva simulada equal-loudness
[( w)] = E ( w)[( w)]. (5.6)
La funcin E(w) es una aproximacin a la no igualdad de la sensibilidad del odo

humano a diferentes frecuencias (Robinson y Dadson, 1956) y simula la sensibilidad del
odo cerca del nivel de 40 dB. Nuestra aproximacin particular es adoptada de Makhoul
y Cosell (1976) y es dada por
E ( w) = [( w 2 + 56.8 x10 6 ) w 4 ] / [( w 2 + 6.3x10 6 ) 2 ( w 2 + 0.38 x10 6 )]. (5.7)
La ecuacin 5.7 representa una funcin de transferencia de un filtro con asntotas

de 12 dB/oct entre 0 y 400 Hz, 0 dB/oct entre 400 y 1200 Hz, 6 dB/oct entre 1200 y
3100 Hz, y 0 dB/oct entre 3100 Hz y la frecuencia de Nyquist. Para niveles de sonido
moderado, esta aproximacin es razonablemente buena arriba de 5000 Hz. Para
aplicaciones que requieren una ms alta frecuencia de Nyquist, un trmino adicional
representa un gran decremento (cerca de 18 dB/oct) de la sensibilidad del odo, para
frecuencias ms altas de 5000 Hz se debe encontrar til. La ecuacin 5.7 debera ser
entonces
E ( w) = 2.58 x10 9 [( w 2 + 56.8 x10 6 ) w 4 ] / [( w 2 + 6.3x10 6 ) 2 ( w 2 + 0.38 x10 9 )( w 2 + 0.98 x10 9 ) 3 ].

(5.7)
5.1.4. Ley de energa intensity-loudness
La ltima operacin de prioridad para el modelo solo polos es la raz cbica de

la compresin de la amplitud
() = () 0.33 (5.8)
Esta operacin es una aproximacin a la ley de energa del odo (Stevens, 1957)
y simula la relacin no lineal entre la intensidad del sonido y su percibida fuerza. Junto
con el pre-nfasis psicofsico de la equal-loudness, esta operacin tambin reduce la
variacin de la amplitud espectral del espectro de la banda crtica, para que as el
siguiente modelo solo polos pueda ser dado por modelo de orden relativamente bajo.
5.1.5. Modelo Auto regresivo.
En la operacin final del anlisis PLP, () es aproximado por el espectro de un

modelo solo polos usando el mtodo de auto correlacin del modelado espectral solo
polos. Los detalles del modelado espectral solo polos se explican en (Makhoul, 1975),
nosotros slo damos una breve descripcin de este principio. La inversa DFT (IDFT) es
aplicada a () para producir la funcin dual de auto correlacin para (), tpicamente
se utiliza un punto-34 IDFT. Aqu la IDFT es la mejor eleccin que la inversa FFT, ya
que slo pocos valores de auto correlacin son utilizados. Los primeros M + 1 valores
de auto correlacin se utilizan para resolver las ecuaciones de Yule-Walker para
coeficientes auto regresivos del modelo solo polos de M-simo orden. Los coeficientes
auto regresivos podran ser adems transformados en algn otro conjunto de parmetros
de inters como por ejemplo, los coeficientes cepstrales del modelo solo polos.
5.1.6. Consideraciones prcticas.
En la prctica, la convolucin y el pre-nfasis son llevados acabo para cada

muestra de (k) en el dominio de P(w) por una sumatoria espectral de peso para la
muestra espectral (i). Por eso la muestra espectral [(wi)] es dada por
wih
[( wi )] = w ( w) P( w).
w = wi
i (5.9)
Los lmites en la sumatoria y la funcin de peso wi son calculadas de la ecuacin

5.4, 5.6, y 5.10 usando la inversa de 5.3, la cual est dada por
w = 1200sinh( / 6). (5.10)
La funcin de peso wi(w) son pre-calculadas para la frecuencia de muestreo dada

y el correspondiente tamao de FFT. Para ilustracin, las wi(w) con frecuencia de
muestreo de 10 kHz son mostradas en la Fig.5.1 donde algunas propiedades bsicas de
peso pueden apreciarse. El ancho de wi(w), es decir, el intervalo de integracin
espectral, incrementa en frecuencia dada por la ecuacin 5.3. Las wi(w) son planas en la
parte superior, con forma exponencial, con baja frecuencia las pendientes son menos
empinadas que las pendientes con alta frecuencia, dado por la ecuacin 5.4 invertida en
frecuencia por convolucin y transformada de la dentro del dominio w. La amplitud
del peso incrementa con la frecuencia, dada por la ecuacin 5.7.
FUNCIN DE
PESO
PERCEPTUAL
FRECUENCIA [ PUNTO ESPECTRAL FFT ]
Fig. 5.1. Las 16 funciones de peso wi(w) usados para el clculo de 16 muestras del espectro auditivo () del
espectro de energa P(w) con cuadros de 20 ms de la seal de voz muestreada a 10 kHz.
Los requerimientos computacionales del anlisis PLP son comparables a los

requerimientos del anlisis convencional LP. Computacional mente, la operacin ms
costosa es el clculo de la FFT espectral, seguida en costo por la integracin espectral
de la banda crtica y la compresin de la raz cbica. El costo del modelado auto
regresivo es insignificante para el bajo nmero de muestras espectrales del espectro
auditivo para ser aproximados. El uso de una tabla podra ser usada para computar la
raz en la conversin intensity-loudness para ahorrar en costo computacional.
6. RASTA: PROCESAMIENTO DEL HABLA
Los efectos del medio ambiente pueden ser modelados por un conjunto de
simples transformaciones y por convolucin como una respuesta impulsiva del medio
adems de ruido. Al experimentar con aproximaciones de filtrados que procuran la
explotacin de las diferencias, se producen robustas representaciones para el
reconocimiento del habla que al incrementarse producen una clase de representacin
relativa espectral (RASTA). As al ver la relacin entre los fundamentos experimentales
y la percepcin auditiva en el ser humano se extiende el mtodo original al incorporarle
ruido y ruido de convolucin.
El habla tiene muchas fuentes de informacin, pero no todas ellas son relevantes.
Convencionalmente los trminos cortos, basados en espectrogramas son las tcnicas de
anlisis del habla que ms informacin de componentes en la seal provee. Entonces, la
intensidad de los datos de las tcnicas estocsticas son comnmente aplicadas para
reducir los efectos de la informacin irrelevante. La reduccin de informacin
irrelevante en el mdulo del anlisis del habla puede incrementar la eficacia de la
cantidad finita de datos de entrenamiento.
Adems, la voz es corrompida por la adicin de ruido. Si el ruido est

correlacionado con la seal del habla, se suma un componente de ruido en la potencia
del espectrograma de la seal. Si el ruido cambia ligeramente la seal de la voz, una
forma aceptable de distinguirla del ruido es la substraccin espectral en la cual la
estimacin de la potencia espectral del ruido es substrada desde la potencia espectral de
la seal. Esto tiene dos problemas:
1. Un detector del habla es requerido para determinar los intervalos desde los
cuales una precisa estimacin de ruido puede ser obtenida
2. El proceso de substraccin puede resultar negativo para los valores de potencia
espectral.
El anlisis RASTA suprime los componentes espectrales que cambian ms ligera

o rpidamente que los del rango tpico de cambios del habla. Hermansky muestra cmo
el procesamiento RASTA mejora el funcionamiento del reconocedor en presencia de
convolucin y adicin de ruido.
6.1 PERCEPCION EN EL SISTEMA AUDITIVO HUMANO
El hecho de que la percepcin humana tienda a reaccionar al valor relativo de un

sonido de entrada es bastante obvio, pero la literatura sobre percepcin de muy ligera
variacin para los estmulos auditivos es escasa, teniendo preferencia por sonidos con
un cierto rango de cambio.
Green [14] cita experimentos recientes de Riesz [21] que fueron luego
confirmados por Zwicker [17] y Green[14], en los cuales se indica una sensibilidad ms
grande del odo humano para modulacin de frecuencias alrededor de 4 Hz ms abajo (o
ms arriba) de la modulacin de frecuencias normal.
Un experimento realizado hace unos aos consiste en el procesamiento completo
de un enunciado mediante un filtro que aproxima la inversa del espectro en tiempo corto
como envolvente del centro de una de las vocales del enunciado. As, el espectro de la
vocal dada lleg a ser aproximadamente escrita, por lo que el resto del enunciado es
perfectamente entendible. Muchas expresiones formales suponen que esta nocin fue
hecha por Summerfield y sus colegas quienes mostraron que una percepcin de sonidos
como los de la voz dependen del sonido precedente, o sea que ste depende de la
diferencia espectral entre el sonido comn y el sonido anterior.
6.2 FUNDAMENTOS DEL MTODO RASTA
La relativa poca sensibilidad del odo humano para la variacin suave de

estmulos podra explicar parcialmente por qu los oyentes humanos no parecen poner
mucha atencin a un cambio suave en las caractersticas en frecuencia de la
comunicacin del medio ambiente o por qu el ltimo ruido fijo no perjudica
grandemente la comunicacin humana.
Haciendo anlisis del habla menos sensitivo, para los cambios suaves con
factores de estado estable en la seal de voz, se remplaza una banda crtica espectral de
tiempo corto en el analizador del habla PLP [2] con un determinado espectro en el cual
cada canal de frecuencia es filtrado pasa-banda por un filtro con un agudo espectro cero
en la frecuencia cero. Esta operacin suprime desde una constante o componente
variado suavemente en cada canal frecuencial dando un nuevo espectro estimado que
resulta menos sensitivo a variaciones suaves en el espectro de tiempo corto [15], [16].
Los pasos de RASTA-PLP son los siguientes para cada estructura (frame) de
anlisis:
1) Computar la banda-crtica de potencia (como en el PLP).

2) Transformar la amplitud espectral a travs de una comprensiva transformacin
esttica no lineal.
3) Filtrar el tiempo de trayectoria de cada componente espectral transformado.
4) Transformar el filtrado de la representacin de la voz expandiendo la
transformacin esttica no lineal.
5) Como en el convencional PLP, multiplicar por la curva equal-loudness y sacar
raz potencia 0.33 de simulacin para la potencia ley del odo.
6) Computar un modelo slo polos del espectro resultante siguiendo la tcnica
convencional PLP.
La idea clave aqu es suprimir factores constantes en cada componente espectral de

tiempo corto como auditorio espectral anterior a la estimacin del modelo solo polos. El
corte a baja frecuencia del filtro determina el cambio espectral ms rpido del logaritmo
espectral, el cual es ignorado en la salida, mientras que el corte a alta frecuencia
determina el cambio espectral ms rpido que es preservado en los parmetros de salida.
Lo ms importante en la bsqueda de resultados son el paso 2 y 3, es decir, en cul
dominio ser hecho el filtrado y qu filtro se usar. Acerca del filtro, se comenz
utilizando un filtro IIR con la siguiente funcin de transferencia:
H(z) = 0.1 z4 * 2 + z-1 z-3 2 z-4 (6.1)
1 0.98 z-1
En (6.1) el corte de baja frecuencia es 0.26 Hz. La pendiente del filtro desciende
6dB/oct desde 12.8 Hz con ceros agudos hasta 28.9 y a 50 Hz.
Es notorio que el filtro RASTA tiene la constante de tiempo para la integracin

algo larga (cerca de 500 ms para el filtro (6.1) y 160 ms para las implementaciones ms
recientes). Esto significa que el resultado comn del anlisis depende de su historia,
como las salidas previas almacenadas en la memoria del recursivo filtro RASTA. Todo
el proceso RASTA es ilustrado en la figura 6.1.
Voz
Anlisis Espectral
Banco de compresin estatica no linearizado
Banco de Filtros lineales Pasa Bandas
Banco de expansin estatica no linearizado
Procesamiento Opcional
Figura 6.1 Diagrama a bloques de la tcnica de procesamiento del habla RASTA.
6.3 EXPERIMENTOS REGISTRADOS CON DATOS EN DIFERENTES

CIRCUNSTANCIAS.
6.3.1 RASTA logartmico
En el primer conjunto de experimentos, se tuvo inters acerca del efecto de

distorsiones convolutivas causadas, esto es, por caractersticas de frecuencia variable de
diferentes canales de comunicacin o por uso de diferentes micrfonos. Tales
distorsiones deberan compararse con una constante auditiva en el espectro logartmico
de la voz. As, han usado transformacin de amplitud logartmica como una
comprensiva no-linealidad esttica en el paso 2) del mtodo RASTA-PLP. La expansin
esttica no linearizada fue una transformacin antilogartmica (exponencial).
6.3.2 Experimentos de reconocimiento con dgitos aislados.
Una base de datos fue derivada de dgitos conectados registrados sobre el

marcado de lneas de telfono, 155 hombres y mujeres hablantes fueron usados para el
reconocedor y datos adicionales de 56 hombres y mujeres hablantes formaron los datos
de prueba, los datos fueron grabados en el Bellcore en Morristown, NJ. Un reconocedor
de palabras aisladas con modelos de densidad continua HMM fue utilixado en el
experimento y se corrieron tres experimentos. En todos los experimentos, el sistema fue
entrenado sobre la parte de entrenamiento de la base de datos Bellcore.
Mtodo Condiciones Modificaciones Condiciones

Similares Controladas Diferentes
PLP 4.08% 31.35% 31.10%
RASTA-PLP 3.81% 5.0% 7.64%
Tabla 4. Porcentajes de error de dgitos aislados [20]
La tabla 4 nos muestra los resultados de porcentajes de error para dgitos

aislados. Los de la primera columna se obtuvieron usando condiciones similares del
canal para el conjunto de entrenamiento y el de prueba. RASTA-PLP ejecuta casi tan
bien como la tcnica estndar PLP.
En el segundo experimento el conjunto de datos de prueba del Bellcore fue

corrompido por una simulacin convolutiva de ruido. El reconocedor que ha sido
entrenado con los datos sin corromper fue usado. El reconocimiento de prueba fue
corrido sobre el conjunto de datos, usando los modelos obtenidos de los datos del
Bellcore. Los resultados son tabulados en la segunda columna de la tabla 4.
La tcnica estndar PLP produjo casi un orden de magnitud ms alto de

proporcin de error que la proporcin de error sobre los datos originales del Bellcore.
RASTA-PLP puede ser visto lejos de ms robustez para tal simulacin en la variacin
del canal.
En la tercera columna se muestran los resultados del experimento para

reconocimiento de errores de un conjunto de datos de cadenas de dgitos hablados por 4
hablantes, estos fueron grabados sobre las lneas locales de telfono en el oeste de EU
en el laboratorio de la voz en Colorado.
En los experimentos realizados es notorio que la tcnica convencional PLP

produjo un muy alto porcentaje de error. Una prueba similar mostr que un sistema
estndar LPC-bsico, degrado ms, un 60.7% de porcentaje de error, en cambio el
funcionamiento de RASTA-PLP se degrado slo moderadamente.
6.3.3 Experimentos con vocabulario largo y continuo del habla.
Se utiliz un filtro pasabajas a 300 emisiones de enunciados de prueba que

forman parte de una base de datos para reconocedores continuos independientes del
habla desde Octubre de 1989 por Manejo de Recursos. Este filtro se eligi para
implementar una aproximacin a los efectos de amortiguamiento de sonido del habla
que se observ como un obstculo entre el micrfono y la boca del hablante. Tanto el
PLP de orden 8 y el RASTA-PLP de orden 8 fueron determinados con estos datos as
como versiones no filtradas de los 3990 enunciados estndar del conjunto de
entrenamiento. El reconocedor usado fue un reconocedor hbrido con una red neuronal
de entrenamiento sobre los 3990 enunciados para predecir monofonos para cada frame
(estructura) y entonces usar un sistema de reconocimiento para la estimacin de las
probabilidades para un solo contexto independiente dentro de un sistema de modelo
oculto de Markov (HMM).
Mtodo Sin filtrado Filtrado

PLP 17.9% 67.5%
RASTA-PLP 18.6% 33.0%
Tabla 5. Porcentajes de error para experimentos del habla con hablantes continuos independientes [20]
Los errores resultantes del trabajo son mostrados en la tabla 5, donde se observa
que el RASTA tiene una ligera degradacin de funcin de los datos limpios pero el error
es reducido a la mitad para el caso del filtrado.
El RASTA-PLP da un sustancial avance en los experimentos de reconocimiento

en lnea. RASTA-PLP hace el reconocedor mucho ms robusto para cambios del
micrfono o de la posicin relativa del micrfono y la boca.
6.3.4 Algunas optimizaciones del filtro RASTA
En los experimentos reportados anteriormente se us modelo autorregresivo AR

cuya constante de integracin (polo real como z = 0.98) corresponde a un tiempo
constante de 500 ms. Despus se hizo un corrimiento para lograr un polo en z=0.94. que
corresponde a una constante de tiempo de 160 ms que pareci ser el ptimo.
El reconocedor usado fue un sistema de mapeo de tiempo (dynamic time

warping DTW) bsico multitemplado, 27 de 30 hablantes fueron usados para
entrenamiento del reconocedor. Para introducir la distorsin convolutiva, los datos de
prueba fueron filtrados por un filtro lineal simulando la envolvente de la inversa
espectral de una vocal sustancial \a\. Para investigar el efecto de filtrado pasa-bajas por
la parte MA del filtro RASTA dos diferentes MA polinomiales fueron usadas:
M1 (z) = z * (0.5 0.5 z-1) (6.2)
y la original:
M (z) = z4 * (0.2 + 0.1 z-1 0.1 z-3 0.2 z-4) (6.3)
para el punto dos del filtro y el punto cinco del filtro MA.
El experimento descrito indica que la caracterstica ms importante para corregir

los efectos dainos de condiciones variables de la funcin de transferencia vista es el
espectro agudo cero en la frecuencia cero. De cualquier forma, usando el punto cinco
del filtro MA vemos producir un considerable avance.
6.4 EXPERIMENTOS CON DATOS Y ADICIN DE RUIDO CONVOLUTIVO
6.4.1 Reconocimiento con adicin de ruido.
Como se ha notado, un ambiente de operacin acstica para un reconocedor

prctico no solo tiene caractersticas de frecuencia variable, puede tambin ser ruido. La
tabla 6 muestra los resultados de un trabajo aislado de reconocimiento en el cual el
reconocedor fue operado con datos que estuvieron sujetos al filtrado lineal (convolucin
de ruido) y para los cuales el ruido fue adicionado.
Limpios Con ruido Filtrado Limpio Filtrado con ruido

PLP (condiciones similares) 12.0 17.2 14.0 21.5
PLP 12.0 43.4 39.7 67.5
RASTA 12.2 42.1 19.9 49.2
Tabla 6. Porcentajes de error de dgitos aislados usando el sistema DTW-bsico [20]
La caracterstica del ruido rara vez se reconoce de antemano; cuando el dato de

diferentes medios es usado en entrenamiento y prueba, el mismo reconocedor
tpicamente funciona mucho peor. La meta de los experimentos es entender y eliminar
varianza en la seal del habla para reducir la necesidad de extensivos entrenamientos
del reconocedor en distintos medios.
6.4.2 RASTA Lin-Log
Cuando se opera en el dominio logartmico espectral, RASTA disminuye los

componentes espectrales que son adicionados en el dominio espectral logartmico. El
procedimiento original RASTA sobre el espectro logartmico no es particularmente
apropiado para el habla con una significativa adicin de ruido.
En los experimentos realizados se decidi estudiar el procesamiento RASTA en

alternativa del dominio espectral, el cual es casi lineal para pequeos valores espectrales
y casi logartmico para valores espectrales grandes. Se propone una sustitucin para la
transformada logartmica en el paso 2 de RASTA:
y = ln (1 + Jx) (6.4)
donde J es una seal dependiente constante positiva. La transformada de amplitud

torcida es casi lineal para J<<1 y casi logartmica para J>>1. La inversa exacta de (6.4)
es:
x = ey 1 (6.5)
J
Se usa una inversa aproximada como una expansin esttica no lineal en el paso
4 del procesamiento RASTA.
x = ey (6.6)
J
6.4.3 Experimentos con dgitos aislados
Se repiti el trabajo aislado en experimentos de diferentes reconocimientos

usando las no lineales (6.4) y (6.6). Usando diferentes valores de J, esto es, un distinto
valor ptimo de J para cada nivel particular de ruido.
6.4.4 Experimentos del habla con grandes vocabularios continuos.
Este tipo de experimentos fueron hechos con un reconocedor simple DTW y la

tarea fue escoger buenos experimentos en la bsqueda de exploracin donde tuvo que
repetir los experimentos de reconocimiento varias veces. Se uso un manejador de
recursos estndar DARPA para el reconocimiento y una red neuronal hbrida
(reconocedor HMM).
Con estos experimentos se encontr el valor ptimo de J para cada caso

particular SNR en los datos de prueba.
6.4.5 Arreglo adaptativo del J ptimo
En los experimentos descritos anteriormente, el mismo valor de J fue usado en

los entrenamientos y en la operacin del reconocedor. El valor de J influy en la forma
resultante del modelo espectral solo polos, esto se podra decidir desde la perspectiva
del modelo de igualado usando el valor de J idntico sobre los datos de entrenamiento y
los de prueba. J depende del nivel de ruido en la seal que puede variar durante la
operacin de reconocimiento. Se tomaron medidas significativas de la energa de la
banda critica en los primeros 125 ms de la expresin. Se usa J inversamente
dependiente. Durante la operacin, C fue fijado a 3.
Limpios Con ruido Filtrado limpio Filtrado con ruido

RASTA Lin-Log 11.4 15.1 20.9 25.7
Tabla 7. Porcentajes de error en dgitos a is lados usando el

sistema multitempla do D TW-bsico
Los resultados del sistema automtico adaptativo son mostrados en la tabla 7 en

donde se indica una sustancial mejora comparada con las ejecuciones del PLP o
RASTA mostrado en la tabla 6.
6.4.6 Compensacin para la variable esttica no linealizada
Como se mostr en experimentos previos de la seccin 6.4.4 y 6.4.5, diferentes

relaciones seal a ruido requieren diferentes estticas no lineales, resultando en el uso
de diferentes modelos de solo polos. Compensando esta variabilidad determinstica en
el anlisis resultante, se aplic un mapeo lineal al procesamiento RASTA basado en un
espectro casi auditivo sobre el modelo de regresin mltiple:
N
i = ci0 (S/N) + cik (S/N) Xk (S/N) (6.7)
k=1
donde
i es la estimacin de regresin mltiple del i-simo elemento de un espectro

RASTA filtrado como auditorio que puede usar la ptima no-linealidad
esttica para el nivel de ruido en el entrenamiento de datos.
(S/N)
Xk el k-simo elemento del verdadero RASTA- filtrado espectral casi auditivo
usando la ptima no-linealidad esttica para la SNR dada en la expresin de
prueba (cuantizado para 7 niveles de S/N, es decir, >25 dB, 25 dB, 20 dB, 15
dB, 10 dB, 5 dB y 0 dB)
N nmero de elementos del espectro casi auditivo.
La tabla 8 sirve de comparacin de las tcnicas de entrenamiento. Tanto en el

RASTA logartmico como en el significativo removido contribuy el ruido convolutivo.
De cualquier forma, PLP, RASTA logartmico y el significativo cepstral removido se
degradaron severamente en la adicin de ruido. El RASTA Lin-Log con un mapeo
lineal produjo buena robustez sobre ambos, la convolucin y la adicin de ruido.
Con ruido Filtrado limpio Filtrado con ruido

Limpios
PLP (condiciones similares) 5.0 10.0 7.2 10.1
PLP 5.0 37.0 24.9 50.4
RASTA 3.3 50.0 3.6 40.4
PLP (significativo cepstral 4.3 42.0 5.0 46.7
removido)
RASTA Lin-Log 3.7 13.7 5.6 17.1
Tabla 8. Porcentajes de error de dgitos asilados usando el sistema Gaussiano mezclado HTK-bsico [20]
6.5 CONSECUENCIAS DEL PROCESAMIENTO RASTA
Como se ha discutido, una de las diferencias ms grandes entre las tcnicas del
convencional anlisis estructura por estructura y el RASTA-bsico es que los del
RASTA dependen de sus resultados anteriores. As, una corta historia empleada en
RASTA efectivamente aumenta las transiciones entre diferentes segmentos de voz y
hace que el resultado sea dependiente de los pequeos segmentos previos de la voz tales
como los fonemas o las slabas.
Tambin el modelo de reconocimiento escogido puede cambiar fuertemente la
apariencia de los efectos del procesamiento RASTA, ya sea entre modelos complejos
(por ejemplo agrupamientos trfono, 5 mezclas) o modelos simples (simples mezclas de
monofonos).
El procesamiento RASTA incrementa la dependencia de datos sobre el contexto

previo. Adems, en el dominio logartmico (cepstral) no direcciona el problema de ruido
adicionado, en cambio el procesamiento Lin-Log, aparentemente maneja la adicin y la
convolucin de ruido razonablemente bien.
El procesamiento RASTA representa una salida al paradigma del anlisis del

habla estructura por estructura con datos del anlisis de re-sntesis del habla desde hace
tiempo. Se cree que esto es una paso en direccin del modelado de algunas propiedades
temporales del procesamiento auditivo humano. Esto tiene gran potencial en el
mejoramiento de mas aprendizaje del modelado de la percepcin auditiva humana.
7. TRABAJOS PREVIOS: CLASIFICACIN DE FONEMAS
USANDO RNA Y EL MODELO RASTA-PLP
El trabajo presentado por Esposito y Ceglia [19 ] sugiere un sistema automtico
basado en Rasta-PLP y Redes Neuronales Recurrentes para la clasificacin de vocales,
fricativas y nasales usando la Base de Datos TIMIT. Con esto se pretende reducir el
espacio en memoria necesario para almacenar los datos de preprocesamiento y el tiempo
de aprendizaje computacional y se basa en la idea de usar una parte pequea de la seal
disponible.
La base de datos TIMIT est compuesta de enunciados en Ingls producidos por

hablantes de diferentes regiones de Estados Unidos (as se toma en cuenta la influencia
de las diferencias de dialctica en el habla). Cada hablante lee 10 diferentes enunciados
en ingls, cada enunciado es etiquetado fonema por fonema. Un total de 253 hablantes
(181 hombres y 72 mujeres) componen la base de datos.
El anlisis PLP usa conceptos de psicofisiologa del odo en orden para derivar
una estimacin del espectro auditivo. El preprocesamiento tipo Rasta-PLP agrega una
operacin de pasa-bandas espectral al anlisis PLP para capturar algunas caractersticas
acsticas de los fonemas.
En el trabajo realizado por Esposito y Ceglia la seal de la voz fue muestreada a

16 KHz en lugar de 20 KHz como en el algoritmo original, los pesos para la ventana de
Hamming de 10 milisegundos (20 ms en el anlisis original) y cada estructura (frame)
de un segmento de fonema fue sobrelapado con el precedente frame por 5 ms (10 ms en
la original). Algo novedoso fue la introduccin en la fase de procesamiento de que el
tracto vocal es un sistema variante de tiempo produciendo una seal no estacionaria; la
seal de la voz necesita una ventana de tiempo corto para ser analizada, la duracin de
sta se define por el tiempo constante del aparato articulatorio (del orden de 10-20 ms).
Slo 30 ms de la seal disponible son usados como entrada a la red.
Esposito y Ceglia utilizaron una red neuronal recurrente con la cual capturan las
relaciones entre las secuencias de eventos acsticos bajo translacin en el tiempo de la
ventana de la seal que est siendo examinada. La arquitectura de la red consiste de una
capa de entrada (con 54 unidades), una capa oculta (con 48 unidades para fricativas, 50
unidades para vocales y 16 unidades para nasales) y una capa de salida (con 6 unidades
para vocales y fricativas y 2 unidades para nasales). La capa de salida fue conectada con
la capa intermedia (hacia atrs). La red fue entrenada usando un algoritmo de back-
propagacin en lnea para redes neuronales parciales.
Al usar esta red, en el reconocimiento para las fricativas (dh, f, sh, z, v, s) los
resultados fueron muy buenos al entrenar con los primeros 30 ms de la seal de la voz.
La red funciona mejor que una red de retardos en el tiempo TDNN (Time Delay Neural
Networks) usada por Waibel [9, 10, 11] y por Esposito [7,8] y mejor que la red Gamma
MLP reportada por Lawrence [12]. Cuando se usan los 30 ms centrales de la seal de la
voz en el entrenamiento, los fonemas [z] y [v] son confundidos, quiz por que no hay
suficiente informacin.
En el caso de las vocales (iy, ae, ao, ux, ax, axr) los mejores resultados se
obtuvieron cuando el conjunto de datos fueron obtenidos de los 30 ms centrales de la
seal de la voz. En este caso la red generaliza muy bien y los resultados de clasificacin
son muy buenos. Cuando se usaron los primeros 30 ms la red no fue capaz de aprender
todas las vocales, teniendo confusiones ms severas entre la [ux] y la [iy].
Finalmente en el caso de las consonantes nasales (m,n), la red obtuvo los

mejores resultados al entrenar con los datos de los primeros 30 ms de la seal de la voz
tal como sucedi en las consonantes fricativas (esto indica que es la parte de la seal de
la voz que contiene ms informacin sobre la identidad de la consonante).
Este estudio introduce un simple y eficiente mtodo para clasificacin de

fonemas complejos como las vocales, fricativas y nasales. Este tambin sugiere que es
posible reducir la cantidad de datos tiles para obtener buenos resultados de
clasificacin. Desde el punto de vista acstico es interesante notar como slo es
necesaria una pequea parte de la seal de la voz (los primeros 30 ms para las
consonantes fricativas y nasales, y los 30 ms centrales para las vocales) para producir
informacin sobre la identidad del fonema.
En resumen, los resultados sobre el entrenamiento de datos dan un 98.5% de

clasificacin correcta para las vocales y las fricativas, y un 97% de clasificacin
correcta para las nasales.
Algunos trabajos realizados de Zue[4], Bengio[5], Flammia[6], Esposito[7,8]

han intentado reconocer consonantes extradas del TIMIT, obteniendo porcentajes de
reconocimiento de 65%, 70%, 75% y 90% respectivamente.
8. NUEVOS EXPERIMENTOS
La generacin del habla representa el modo ms natural de comunicacin entre

los seres humanos y al mismo tiempo es un fenmeno muy complicado de analizar.
Dada la naturaleza dinmica de la seal de voz conviene caracterizar a las unidades que
la forman (fonemas) con el propsito de agruparlas y realizar tareas de reconocimiento.
Desde un punto de vista acstico se sabe que los idiomas ingls y espaol presentan
diferencias como por ejemplo en la conformacin de formantes de las vocales para cada
uno. Si bien la informacin que presentan las formantes pareciera suficiente para
caracterizar los fonemas voclicos, debe considerarse un conjunto de factores que
dificultan los reconocimientos tales como regin geogrfica, edad, gnero o estado de
nimo del hablante. En el reconocimiento automtico del habla se realiza un
procedimiento previo de adecuacin o preprocesamiento que involucra la informacin
previa y siguiente para la asignacin de las secuencias de fonemas a reconocer. De esta
etapa se extrae la informacin relevante que sirve de punto de partida para el
reconocimiento.
Se ha generado una cantidad considerable de trabajo alrededor del

reconocimiento automtico del habla en ingls donde las aplicaciones comerciales se
enfocan a manejo de datos, sistemas de seguridad y aprendizaje. En espaol se presenta
el problema de la falta de bases de datos grabadas bajo condiciones adecuadas para su
utilizacin. Se ha trabajado con seales grabadas para el anlisis de fonemas as como
de slabas.
Como hemos mencionado en los captulos anteriores, el estudio del

reconocimiento del habla abarca muchos disciplinas. En nuestro caso especfico se
realizaron varios tipos de experimentos cuyo inters es reconocer las caractersticas de
las vocales tanto en espaol como en ingles.
Para ingls se tomaron los fonemas voclicos de la base de dados TIMIT, una
base de datos que consta de enunciados ledos y que ha sido diseada para suministrar
seales de voz para ser utilizados en la evaluacin de sistemas automticos de
reconocimiento; se utilizaron tanto hablantes masculinos como femeninos de la regin
de dialecto de Nueva Inglaterra y se formaron los conjuntos de las diez vocales con
mayor frecuencia de ocurrencia. Las seales de voz en espaol se obtuvieron por medio
de la grabacin de dgitos aislados con una tarjeta de sonido de 16 bits a una frecuencia
de muestreo de 16000 Hz. Se utiliz un slo hablante masculino para la grabacin de
los fonemas y se formaron los conjuntos de diez repeticiones de cada dgito para hacer
un total de 100 ejemplos.
Para los experimentos relacionados con las vocales del ingles americano se
utilizo la Base de Datos TIMIT, de donde se extrajo un conjunto de muestras
(femeninas y masculinas) de cada directorio para examinar as las caractersticas de las
vocales involucradas en las oraciones grabadas y observar sus caractersticas.
Los experimentos relacionados con las vocales en espaol, tuvieron origen en

grabaciones de los primeros 10 dgitos numricos en espaol (del cero al nueve), de
donde se obtuvieron 6 muestras aleatorias de cada vocal, para despus generar
espectrogramas con ellas, obtener los valores para sus primeras tres formantes y
posteriormente entrenar una red neuronal artificial que aprenda las caractersticas
especificas de cada vocal y pueda reconocer despus las vocales que se le introduzcan,
creando as el reconocedor de voz.
Un diagrama que nos muestra los pasos a seguir para generar un reconocedor de
voz es el siguiente:
Seal Seal Anlisis Secuencia Transcripcin

Analgica Digital Espectral Fonemas final
Clasificacin Sintaxis,
A/D Preproceso de Ortografa, Hola
Fonemas etc
oolaa
Fig. 8.1 Esquema de pasos para crear un reconocedor de voz
Nosotros ya contamos con la informacin de las vocales como seal digital, as

es que el objetivo principal de este proyecto, es generar un buen anlisis espectral de los
datos con que se cuenta para luego dar paso a la formacin de los fonemas a travs de la
red neuronal, con lo que se obtendra el reconocedor.
8.1 CARACTERIZACIN
La caracterizacin de los fonemas se realiz mediante la obtencin de un vector

caracterstico de coeficientes. Para cada fonema se form un conjunto de vectores
caractersticos con 10, 12, 13, 14, 15 y 20 coeficientes cepstrales, primeras y
segundas derivadas cepstrales. Primero se aplic un filtro para enfatizar los
componentes de alta frecuencia que consiste en una ecuacin de diferencias hacia
atrs de la forma
s n' = s n ks n 1 .
Se determinaron los tamaos de los segmentos de anlisis o frames a 10, 20, 25

y 50 ms y se hizo uso de un traslape entre frames del 0%, 25%, 30% y 50%. Cada
frame se multiplic por una ventana Hamming para posteriormente obtener el espectro
de potencia en tiempo corto mediante la Transformada de Fourier de la seal
ventaneada:
[
s n' = 0.54 0.46 cos ( 2 ( n 1)
N 1
)]s n
S (w) = [s n ]
donde N es el tamao de la ventana en nmero de muestras. El espectro de potencia se
obtuvo en escala logartmica mediante un anlisis por banco de filtros en escala de Mel:
(
Mel ( f ) = 2595 log 10 1 + 700
f
).
Posteriormente se hizo uso de la transformada coseno para convertir el conjunto

de energas en escala logartmica en coeficientes cepstrales y se obtuvieron los
coeficientes de la primera y segunda derivadas cepstrales para formar el vector de
coeficientes por frame.
Con la finalidad de comparar los diferentes preprocesamiento se hizo uso de una

red neuronal tipo perceptron de una capa oculta para la clasificacin de los fonemas.
8.2 EXPERIMENTOS PARA LAS VOCALES DEL INGLES AMERICANO
Para la realizacin de estos experimentos se tom la informacin de la Base de

Datos TIMIT, este experimento se separ en dos partes, una perteneciente a las voces
femeninas y otra a las voces masculinas. Dado que se tienen 8 directorios en la Base de
Datos, se tom el primer conjunto de datos femeninos y masculinos de cada directorio.
Haciendo uso del paquete computacional matemtico MatLab, se segmentaron

los fonemas encontrados en las frases tomadas de la Base de Datos, slo se guardando
los fonemas de las 10 principales vocales del ingles en archivos de texto con el nombre
del fonema.
Se tomaron en cuenta slo las principales vocales del ingls, que son
mencionadas en el captulo 1, y de las cuales enlistamos el valor de sus primeras tres
formantes en la Tabla 1 Seccin 1.3.1. Las vocales son: IY, IH, EH, AE, AH, AA, AO,
UH, UW y ER. Posteriormente, se llev acabo el Anlisis de las seales de voz con el
Modelo de Codificacin Lineal Predictivo LPC (Linear Predictive Coding), descrito en
el Capitulo 4, seccin 4.3.
Con ayuda de la funcin melcepst del toolbox Voicebox, se calcul el mel

cepstrum de la seal, bajo una serie de parmetros descritos a continuacin.
c = melcepst (x, fs, w, nc, p, n, inc)
donde:
x la seal de voz (archivos de segmentacin para las 10 vocales))

fs frecuencia de muestreo( 16,000 Hz para seales de voz ingls)
w caractersticas del procesamiento (valores de la Tabla 8.2.4)
nc nmero de coeficientes cepstrales (valores de la Tabla 8.2.1)
p nmero de filtros en el banco de filtros (default floor(3*log(fs)))
n longitud del frame (valores de la Tabla 8.2.2)
inc incremento del frame (traslape del frame) (valores de la Tabla 8.2.3)
Se generaran tantas archivos como resultado de todas las combinaciones
posibles de los parmetros antes mencionados. Los valores usados para algunas de estas
parmetros son:
Valor de nc
10
12
13
14
15
20
Tabla 8.2.1 Valores de nc
Valor de n Correspondiente a
(ms)
160 10
320 20
400 25
800 50
Tabla 8.2.2 Valores de n.
Valor de inc
0% equivalente a n
25% equivalente a floor(0.75*n)
Tabla 8.2.3 Valores de inc.
Valor de w
M0e
M0ed (1. Derivada)
M0edD (2. Derivada)
Tabla 8.2.4 Valores de w.
De acuerdo con los valores anteriores, se generan 288 combinaciones para el

melcepst, es decir, que despus de obtener un nmero definido de ejemplos para cada
una de las 10 vocales, se ejecutara el melcepst en cada archivo con cada una de estas
combinaciones.
Al tener los archivos resultantes, se entrenara una red neuronal artificial tipo
perceptron de una capa con el 70 % de los datos y luego se realizaran pruebas con el
otro 30% de los datos, tal como se menciona en la seccin 3.3.
El entrenamiento de la red servir para determinar la capacidad de agrupamiento
de los datos as como el rendimiento de la correcta clasificacin de los mismos.
8.2.1 Descripcin de los datos obtenidos del melcepst en las vocales de

voces femeninas
De la segmentacin de las oraciones del TIMIT se obtuvieron la siguiente cantidad de

ejemplos:
Cantidad
Vocal de Ejemplos
AA 48
AE 56
AH 44
AO 60
EH 60
ER 38
IH 86
IY 115
UH 13
UW 8
Tabla 8.2.1.1 Numero de ejemplos arrojados en la segmentacin.
Al usar el melcepst, no todas las vocales se generaron correctamente, en el caso de la

longitud del frame se obtuvieron los siguientes resultados:
Longitud del frame n (ms)
Vocal 10 20 25 50
aa Completado Completado Completado Completado
ae Completado Completado Completado Completado
ah Completado Completado Completado Falto
ao Completado Completado Completado Falto
eh Completado Completado Completado Falto
er Completado Completado Completado Completado
ih Completado Completado Completado Falto
iy Completado Completado Completado Falto
uh Completado Completado Completado Falto
uw Completado Completado Completado Completado
Tabla 8.2.1.2 Resultados de la combinacin del uso del Melcepst para la longitud del frame n.
.
Tambin con ayuda del paquete MatLab, se gener el espectrograma y la grafica

de frecuencia para 3 ejemplos escogidos aleatoria mente de cada vocal, en esta grfica
de frecuencia se marco con tres lneas verticales los valores de frecuencia de las tres
formantes (ms energa indicada por el color rojo en el espectro).
A continuacin mostramos los valores de frecuencia que se encontraron de las

primeras 3 formantes de frecuencia en 3 ejemplos elegidos aleatoria mente de cada
vocal, donde el nmero que precede a la vocal es el numero de ejemplo (este slo sirve
para identificar el ejemplo tomado).
Vocales en 1er. Formante 2do. Formante 3er. Formante

Ingles (Hz) (Hz) (Hz)
aa14 875 1562 3000
aa36 812.5 1187.5 3750
aa44 687.5 1500 2437
Ae3 625 1687 2750
ae28 812.5 1937.5 2562
ae55 750 2125 3000
Ah8 625 1000 3437
ah15 750 1500 3187.5
ah23 625 1562.5 3000
Ao5 687.5 1062 3625
ao21 500 1062.5 2562.5
ao60 562.5 937.5 2375
Eh1 687.5 2125 2937.5
eh17 562.5 1875 3937.5
eh39 625 1687 3000
Er9 625 1562.5 3375
er22 500 1812.5 3687
er31 500 1687.5 4250
ih46 437.5 2250 4375
ih72 437.5 2500 3312.5
ih83 437.5 2250 3312.5
iy10 437.5 2437.5 3125
iy99 375 2437.5 2875
iy106 437.5 2312.5 2875
Uh2 437.5 1687.5 2687.5
Uh8 562.5 1500 5125
uh13 500 2125 2875
Uw1 375 1000 2812.5
Uw5 437.5 1375 2937.5
Uw8 437.5 1312.5 2750
Tabla 8.2.1.3. Valores encontrados para las primeras 3 formantes de frecuencia en las vocales tpicas del ingles.
La obtencin de estos valores se realiz observando los tres niveles ms

significativos de acumulacin de energa (color rojo) en los espectrogramas generados.
Las imgenes correspondientes a los espectrogramas de estas vocales se encuentran en
el Apndice II: Anlisis espectral de las vocales en ingls.
8.2.2 Descripcin de los datos obtenidos del melcepst en las vocales de voces
masculinas
De la segmentacin de las oraciones del Timit se obtuvieron la siguiente cantidad de

ejemplos:
Cantidad
Vocal de Ejemplos
AA 38
AE 65
AH 24
AO 43
EH 41
ER 30
IH 68
IY 106
UH 4
UW 6
Tabla 8.2.2.1 Numero de ejemplos arrojados en la segmentacin.
Al usar el melcepst, no todas las vocales se generaron correctamente, en el caso de la

longitud del frame se obtuvieron los siguientes resultados:
Longitud del frame n (ms)
Vocal 10 20 25 50
aa Completado Completado Falto Falto
ae Completado Completado Completado Completado
ah Completado Completado Completado Falto
ao Completado Completado Completado Falto
eh Completado Completado Completado Falto
er Completado Completado Completado Completado
ih Completado Completado Completado Falto
iy Completado Completado Completado Falto
uh Completado Completado Completado Completado
uw Completado Completado Completado Falto
Tabla 8.2.2.2 Resultados de la combinacin del uso del Melcepst para la longitud del frame n.
Tambin con ayuda del paquete MatLab, se genero el espectrograma y la grafica

de frecuencia para 3 ejemplos escogidos aleatoria mente de cada vocal, en esta grfica
de frecuencia se marco con dos lneas verticales los valores de frecuencia de las dos
primeras formantes (ms energa indicada por el color rojo en el espectro).
La Tabla 8.2.2.3 muestra los valores de frecuencia que se encontraron de las
primeras 2 formantes de frecuencia en 3 ejemplos elegidos aleatoria mente de cada
vocal, donde el numero que precede a la vocal es el numero de ejemplo (este solo sirve
para identificar el ejemplo tomado).
Vocales 1er. Formante 2do. Formante

en Ingles (Hz) (Hz)
aa18 710 1210
aa3 690 1100
aa31 610 1130
ae46 625 1312.5
ae62 687.5 1340
ae7 687.5 1500
ah11 660 1250
ah16 500 875
ah24 500 1250
ao33 625 1062.5
ao40 500 875
ao5 687.5 1000
eh22 500 1687.5
eh31 500 1625
eh38 562.5 1562.5
er17 500 1375
er2 375 1875
er25 500 1562.5
ih10 437.5 1990
ih50 437.5 1812.5
ih67 500 1625
iy27 437.5 2000
iy75 375 2312.5
iy99 375 2687.5
uh2 562.5 925
uh3 562.5 100
uh4 437.5 1437.5
uw2 375 1563
uw4 375 1187.5
uw6 312.5 1375
Tabla 8.2.2.3 Valores encontrados para las primeras 2 formantes de frecuencia en las vocales tpicas del ingles.
La obtencin de estos valores se realiz observando los dos niveles ms

significativos de acumulacin de energa (color rojo) en los espectrogramas generados.
Las imgenes correspondientes a los espectrogramas de estas vocales se encuentran en
el Apndice II: Anlisis espectral de las vocales en ingls.
8.3 EXPERIMENTOS PARA LAS VOCALES DEL ESPAOL
Como mencionamos al inicio, el principal motivo de este proyecto es generar

las bases para crear un reconocedor del habla. En el idioma espaol no se cuenta con
muchos estudios sobre este tema, de hecho hay algunos reconocedores en espaol
basados en reconocedores para el idioma ingls.
Debido a los orgenes prehispnicos y de mestizaje espaol que tiene el idioma

en Mxico y en otros lugares del mundo, se crea la necesidad de tener un reconocedor
especializado en los distintos sonidos de los fonemas espaoles.
Haciendo uso de una pequea base de datos de aproximadamente 100 ejemplos,

se comienza a generar la informacin necesaria para este proyecto. En el caso de este
idioma se tomaron 6 elementos de datos para cada vocal, con ellos se gener un
espectrograma y una grfica de frecuencia para comenzar a obtener las caractersticas
propias de cada formante de frecuencia en cada vocal. Las imgenes correspondientes a
los espectrogramas de estas vocales se encuentran en el Apndice I: Anlisis espectral
de las vocales en espaol.
8.4 RESULTADOS OBTENIDOS CON LA RED NEURONAL
Los datos obtenidos fueron utilizados en una red neuronal tipo perceptron cuyas
caractersticas se enlistan a continuacin:
- Nmero de capas ocultas: 1

- Nmero de nodos de entrada: nmero de coeficientes del vector de
caractersticas acsticas
- Nmero de nodos de salida: nmero de fonemas a clasificar
- Conjunto de entrenamiento: 70% de los datos
- Conjunto de prueba: 30% de los datos
Los resultados obtenidos por la red neuronal bajo las diferentes configuraciones se
muestran en las tablas 8.4.1, 8.4.2, 8.4.3 y 8.4.4. Las tablas muestran los porcentajes de
reconocimiento en los conjuntos de entrenamiento y prueba de las bases de datos en
ingls y espaol con diferente nmero de coeficientes en el vector de caractersticas
(coeficientes cepstrales). El traslape de los frames fue del 30% ya que con los dems
valores se presentaban problemas con la longitud de los mismos debido a que eran
mayores a la longitud de la seal.
No. Coeficientes % Entrenamiento % Prueba

10 49 45
12 55 54
15 69 66
20 72 68
Tabla 8.4.1 Porcentajes de reconocimiento para las configuraciones mfcc con primera derivada en ingls
10 72 68
12 85 80
15 95 92
20 83 79
Tabla 8.4.2 Porcentajes de reconocimiento para las configuraciones mfcc con primera y segunda derivadas en ingls

10 56 50
12 69 66
15 72 72
20 71 70
Tabla 8.4.3 Porcentajes de reconocimiento para las configuraciones mfcc con primera y segunda derivadas en espaol

10 75 70
12 88 85
15 97 92
20 82 80
Tabla 8.4.4 Porcentajes de reconocimiento para las configuraciones mfcc con primera y segunda derivadas en espaol
Con respecto al uso de derivadas cepstrales se encontr que el uso de la primera y

segunda derivadas mejoraban los rendimientos de clasificacin como se muestra en las
tablas 8.4.5 y 8.4.6.
Conformacin del vector % Entrenamiento % Prueba

12 80 78
24 82 80
36 89 88
Tabla 8.4.5 Porcentaje de clasificacin correcta de fonemas con respecto al vector de coeficientes en ingls
Conformacin del vector % Entrenamiento % Prueba

12 80 86
24 90 88
36 97 95
Tabla 8.4.6 Porcentaje de clasificacin correcta de fonemas con respecto al vector de coeficientes en espaol
De la experimentacin y los resultados anteriores se puede deducir que
- la duracin de los frames que mayores porcentajes de clasificacin obtuvieron
fue 10ms
- el uso de la primera y segunda derivada aumentan significativamente los
porcentajes de clasificacin de los fonemas
- el rango ptimo del nmero de coeficientes del vector caracterstico va de 12 a
15
- el idioma espaol posee vocales ms distinguibles que el ingls desde el punto
de vista espectral
8.5 CONCLUSIONES
La etapa de preprocesamiento determina en gran medida la caracterizacin

correcta de los vectores acsticos. En el caso del espaol la separacin de estas
caractersticas se refleja en porcentajes de clasificacin correcta ms altos en
comparacin con el ingls, que presenta vocales traslapadas.
Esto era de esperarse, debido a lo que se percibe en la grfica del mapa de las
formantes para las vocales en espaol e ingls:
Figura 8.2 a) Mapa de Formantes de las vocales en Ingles.
Figura 8.2 b) Mapa de formantes de las vocales en Espaol.
Si la etapa de preprocesamiento en si resulta un proceso difcil, debido a la

seleccin de los valores de los diferentes parmetros de la funcin melcepst para
obtener los vectores caractersticos de coeficientes de los fonemas:
c = melcepst (x, fs, w, nc, p, n, inc)
NOTA: Su descripcin y valores son descritos en la seccin 8.2.
los valores para la clasificacin haciendo uso de la Red Neuronal Perceptron, tambin
merecen un punto de atencin para posteriores experimentos, ya que para llevar a cabo
nuestra tarea de clasificacin se hizo uso de una Red de 1 capa oculta. Sera interesante
ver que sucede si se hacen clasificaciones con redes de diferentes capas ocultas, o la
variacin de algunos otros parmetros que definen a la Red Neuronal. Ya que nuestra
tarea en estos experimentos, fue la de jugar, por as decirlo con los parmetros que
definen el preprocesamiento de los vectores acsticos y analizar as los resultados
arrojados en la etapa de clasificacin. Los resultados de las tablas 8.4.5 y 8.4.6., las
cuales muestran que no obstante, la mejor configuracin de vector para ambos casos
(espaol e ingls) es la que incluye las primeras y segundas derivadas, las cuales
proporcionan mayor informacin de las seales.
Al analizar las caractersticas de las formantes de frecuencia de las vocales,

notamos que hay variacin en cuanto a los valores encontrados, esto es uno de los
principales problemas en el anlisis espectral. Un buen reconocedor de voz debe ser
capaz de reconocer cualquier fonema que tenga como entrada, es por ello que la fase de
entrenamiento de la red neuronal es tan importante.
DESCRIPCIN DE LOS APNDICES.
La seccin de apndices contiene la informacin que complementa el proyecto y a

continuacin se hace una breve descripcin de cada uno de ellos.
Apndice I: Anlisis espectral de las vocales en espaol.- de una lista de fonemas

voclicos aislados de la grabacin de dgitos se obtuvieron los espectros de potencia a
fin de determinar sus formantes y observar la variacin de sus valores
Apndice II: Anlisis espectral de las vocales en ingls.- de la misma forma se analizaron
las vocales ms utilizadas en el ingls, las cuales se obtuvieron de la base de datos TIMIT.
APNDICE I
ANLISIS ESPECTRAL DE LAS VOCALES EN ESPAOL

Grupo 1
Fonema /a/: central, abierta y sonora.
Archivo: cuatro6.dat
1er. Formante 2do. Formante

(Hz) (Hz)
a1 (cuatro10.dat) 516.8 3445.3
a2 (cuatro2.dat) 516.8 3531.4
a3 (cuatro6.dat) 600 3531.4
Datos tericos para /a/ 904, 861 1421, 1464, 1378
Observaciones: Tal vez el valor obtenido en las grficas para el segundo formante no es
realmente para este formante si no para algn formante superior. De hecho en la teora
se habla de que el tercer formante aparece en los 2627 Hz y 2584 Hz. Adems
tampoco el primer formante coincide probablemente se deba a problemas en las
grabaciones.
Fonema /e/: anterior, media y sonora.
Archivo: seis1.dat

(Hz) (Hz)
e1 (cero7.dat) 258.4 1850
e2 (seis1.dat) 344.5 2325
e3 (tres3.dat) 258.4 2500
Datos tericos para /e/ 431 2239, 2412, 2369
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida e2.
Fonema /i/: anterior, cerrada y sonora.
Archivo: siete10.dat

(Hz) (Hz)
i1 (cinco8.dat) 172.26 2756.2
i2 (seis6.dat) 258.4 2584
i3 (siete10.dat) 258.4 2500
Datos tericos para /i/ 258 2412
nuestra vocal elegida i3.
Fonema /o/: Posterior, media y sonora.
Archivo: dos9.dat

(Hz) (Hz)
o1 (cuatro3.dat) 172.26 3360
o2 (dos9.dat) 516.8 3000
o3 (ocho1_2.dat) 330 3500
Datos tericos para /o/ 474 861
realmente para este formante si no para algn formante superior. El primer formante es
el nico que se asemeja a los valores tericos.
Fonema /u/: Posterior, cerrada y sonora.
Archivo: cuatro8.dat

(Hz) (Hz)
u1 (cuatro8.dat) 258.4 689.06
u2 (nueve6.dat) 250 500
u3 (uno3.dat) 172.2 500
Datos tericos para /u/ 258 689
nuestra vocal elegida u1.
Grupo 2
Fonema /a/: central, abierta y sonora.
1er. Formante (Hz) 2do. Formante (Hz)

a1 430 3300
a2 517 3445
a3 517 3445
Datos tericos para /a/ 904, 861 1421, 1464, 1378
realmente para este formante si para algn formante superior. De hecho en la teora se
habla de que el tercer formante aparece en los 2627 Hz y 2584 Hz. Adems tampoco el
primer formante coincide probablemente se deba a problemas en las grabaciones.
Fonema /e/: anterior, media, sonora.

e1 258 3250
e2 258 3620
e3 258 3531
Datos tericos para /e/ 431 2239, 2412, 2369
Observaciones: Aun cuando no coinciden los valores para el primer formante en la

teora y en las grficas analizadas, podemos notar que los valores encontrados para el
primer formante es el mismo en las 3 graficas. En el caso del segundo formante, los
valores no coinciden en ningn caso, es decir, ni entre ellos ni con los tericos, quiz se
deba a que pertenecen a un formante superior. En la teora se habla de que el cuarto
formante tiene valores de 3661Hz y 3704 Hz, y que el tercer formante oscila entre el
segundo y el cuarto formante.
Fonema /i/: anterior, cerrada, sonora.

i1 172 2670
i2 258 2500
i3 172 2670
Datos tericos de /i/ 258 2412
Observaciones: En la tabla de datos vemos que i2 coincide con el valor terico de la

primer formante, sin embargo, los otros dos ejemplos (i1 e i2) coinciden entre ellos y
teniendo un valor menor al terico. En el caso del segundo formante, se podra decir que
se obtuvieron valores un poco mayores pero prximos al valor terico. En la teora se
habla de un tercer formante en 3531 Hz, aun cuando no es parte de lo que pertenece al
reporte, se menciona ya que si notamos en la grfica observamos un tercer pico,
perteneciente al tercer formante y de hecho aparece en los tres ejemplos (su valor es
3703 Hz, 3359 Hz y 3359 Hz para i1, i2 e i3 respectivamente).
Fonema /o/: posterior, media, sonora.

o1 86 2755
o2 517 3445
o3 430 2928
Datos tericos para la /o/ 474 861
Observacin: Para el primer formante, el segundo y el tercer ejemplo se aproximan ms

al valor terico, pero para el segundo formante, los valores obtenidos son ms grandes
que el valor terico. Es importante mencionar, que tal vez los valores encontrados para
el segundo formante no pertenezcan a este, sino a formantes de frecuencias ms altas, en
la teora, estas frecuencias aparecen alrededor de los 3900 Hz, o no aparecen por
disponer de muy poca energa.
Fonema /u/: posterior, cerrada, sonora.

u1 345 2498
u2 516 3445
u3 172 3359
Datos tericos para la /u/ 258 689
Observaciones: No se encontr similitud alguna entre los valores obtenidos de las

grficas y los valores tericos, de hecho el nico valor ms prximo al valor terico es
el de u3 en el primer formante, pero para el segundo formante ninguno se parece. Puede
ser que suceda esto por que los picos encontrados no son los del segundo formante o por
que halla ruido en las grabaciones.
APNDICE II
ANLISIS ESPECTRAL DE LAS VOCALES EN INGLS

Grupo 1(Masculino)
Fonema /AA/:
Archivo: aa3.txt

(Hz) (Hz)
aa1 (aa18.txt) 710 1210
aa2 (aa3.txt) 690 1100
aa3 (aa31.txt) 610 1130
Datos tericos para /aa/ 730 1090
nuestra vocal elegida aa2.
Fonema /AE/:
Archivo: ae7.txt

(Hz) (Hz)
ae1 (ae46.txt) 625 1312.5
ae2 (ae62.txt) 687.5 1340
ae3 (ae7.txt) 687.5 1500
Datos tericos para /ae/ 660 1720
nuestra vocal elegida aa3.
Fonema /AH/:
Archivo: ah24.txt

(Hz) (Hz)
ah1 (ah11.txt) 660 1250
ah2 (ah16.txt) 500 875
ah3(ah24.txt) 500 1250
Datos tericos para /ah/ 520 1190
nuestra vocal elegida ah3.
Fonema /AO/:
Archivo: ao40.txt

(Hz) (Hz)
ao1 (ao33.txt) 625 1062.5
ao2 (ao40.txt) 500 875
ao3(ao5.txt) 687.5 1000
Datos tericos para /ao/ 570 840
nuestra vocal elegida ao2.
Fonema /EH/:
Archivo: eh22.txt

(Hz) (Hz)
eh1 (eh22.txt) 500 1687.5
eh2 (eh31.txt) 500 1625
eh3(eh38.txt) 562.5 1562.5
Datos tericos para /eh/ 530 1840
nuestra vocal elegida eh1.
Fonema /ER/:
Archivo: er17.txt

(Hz) (Hz)
er1 (er17.txt) 500 1375
er2 (er2.txt) 375 1875
er3 (er25.txt) 500 1562.5
Datos tericos para /er/ 490 1350
nuestra vocal elegida er1.
Fonema /IH/:
Archivo: ih10.txt

(Hz) (Hz)
ih1 (ih10.txt) 437.5 1990
ih2 (ih50.txt) 437.5 1812.5
ih3 (ih67.txt) 500 1625
Datos tericos para /ih/ 390 1990
nuestra vocal elegida ih1.
Fonema /IY/:
Archivo: iy75.txt

(Hz) (Hz)
iy1 (iy27.txt) 437.5 2000
iy2 (iy75.txt) 375 2312.5
iy3 (iy99.txt) 375 2687.5
Datos tericos para /iy/ 270 2290
nuestra vocal elegida iy2.
Fonema /UH/:
Archivo: uh2.txt

(Hz) (Hz)
uh1 (uh2.txt) 562.5 925
uh2 (uh3.txt) 562.5 100
uh3 (uh4.txt) 437.5 1437.5
Datos tericos para /uh/ 440 1020
nuestra vocal elegida uh1.
Fonema /UW/:
Archivo: uw4.txt

(Hz) (Hz)
uw1 (uw2.txt) 375 1563
uw2 (uw4.txt) 375 1187.5
uw3 (uw6.txt) 312.5 1375
Datos tericos para /uw/ 300 870
Observaciones: Los valores obtenidos aunque no son muy semejantes a los valores
tericos, los valores ms aproximados son de nuestra vocal elegida uw2.
ANLISIS ESPECTRAL DE LAS VOCALES EN INGLS
Grupo 1(Masculino)
FONEMA /AA/
Valores caractersticos de las 3 primeras formantes de frecuencia:
F1 = 730 Hz
F2 = 1090 Hz
F3 = 2440 Hz
Valores obtenidos en el ejemplo aa44 de los primeros tres formantes de

frecuencia:
F1 = 687.5 Hz
F2 = 1500 Hz
F3 = 2437 Hz
El valor que difiere ms es el de F2.

FONEMA /AE/
F1 = 660 Hz
F2 = 1720 Hz
F3 = 2410 Hz
Valores obtenidos en el ejemplo ae3 de los primeros tres formantes de

frecuencia:
F1 = 625 Hz
F2 = 1687 Hz
F3 = 2750 Hz
La formante F3 se encuentra ms elevada, las otras dos son ms aproximadas.
FONEMA /AH/
F1 = 520 Hz
F2 = 1190 Hz
F3 = 2390 Hz
Valores obtenidos en el ejemplo ah23 de los primeros tres formantes de

frecuencia:
F1 = 625 Hz
F2 = 1562.5 Hz
F3 = 3000 Hz
Para esta vocal, ninguno de los archivos tomados tiene valores muy prximos a los que
se tienen registrados con anterioridad, de cualquier manera exponemos este ejemplo
para observar la variabilidad de valores en las muestras.
FONEMA /AO/
F1 = 570 Hz
F2 = 840 Hz
F3 = 2410 Hz
Valores obtenidos en el ejemplo ao60 de los primeros tres formantes de

frecuencia:
F1 = 562.5 Hz
F2 = 937.5 Hz
F3 = 2375 Hz
Para esta vocal, los valores de las 3 formantes son muy aproximados a los registrados en
experimentos anteriores.
FONEMA /EH/
F1 = 530 Hz
F2 = 1840 Hz
F3 = 2480 Hz
Valores obtenidos en el ejemplo eh17 de los primeros tres formantes de

frecuencia:
F1 = 562.5 Hz
F2 = 1875 Hz
F3 = 3937.5 Hz
El valor de F3 es muy elevado con respecto del valor caracterstico para esta vocal.
FONEMA /ER/
F1 = 490 Hz
F2 = 1350 Hz
F3 = 1690 Hz
Valores obtenidos en el ejemplo er31 de los primeros tres formantes de

frecuencia:
F1 = 500 Hz
F2 = 1687.5 Hz
F3 = 4250 Hz
Los valores encontrados en las 3 primeras formantes de los datos elegidos para esta
vocal son muy altos difieren mucho de los valores caractersticos.
FONEMA /IH/
F1 = 390 Hz
F2 = 1990 Hz
F3 = 2550 Hz
Valores obtenidos en el ejemplo ih83 de los primeros tres formantes de

frecuencia:
F1 = 437.5 Hz
F2 = 2250 Hz
F3 = 3312.5 Hz
Los valores de F2 y F3 son muy elevados con respecto a los valores caractersticos.
FONEMA /IY/
F1 = 270 Hz
F2 = 2290 Hz
F3 = 3010 Hz
Valores obtenidos en el ejemplo iy99 de los primeros tres formantes de

frecuencia:
F1 = 375 Hz
F2 = 2437.5 Hz
F3 = 2875 Hz
Ninguno de los valores de las 3 formantes concuerdas con los valores caractersticos
para esta vocal, sin embargo, con aproximados.
FONEMA /UH/
F1 = 440 Hz
F2 = 1020 Hz
F3 = 2240 Hz
Valores obtenidos en el ejemplo uh2 de los primeros tres formantes de

frecuencia:
F1 = 437.5 Hz
F2 = 1687.5 Hz
F3 = 2687.5 Hz
El valor obtenido para F2 y F3 en este ejemplo son mayores a los valores caractersticos
de estas formantes, pero es el ms aproximado de los ejemplos.
FONEMA /UW/
F1 = 300 Hz
F2 = 870 Hz
F3 = 2240 Hz
Valores obtenidos en el ejemplo uw1 de los primeros tres formantes de

frecuencia:
F1 = 375 Hz
F2 = 1000 Hz
F3 = 2812.5 Hz
El valor obtenido para F2 y F3 en este ejemplo son mayores a los valores caractersticos
de estas formantes, pero es el ms aproximado de los ejemplos.
REFERENCIAS
[1] Rabiner l.R., Juang B. H. Fundamentals in Speech Recognition, Prentice Hall, 1993.
[2] Hermansky H. Perceptual Linear Predictive (PLP) Analysis de Speech. Jour. Acoust.
Soc. Am., 1190, 87(4), 1738-1752.
[3] Hermansky H., Morgan N. RASTA Processing of Speech. IEEE Trans. On Speech and
Audio Processing, 1994, 2(4), 578-589.
[4] Zue, S. Seneff, J. Glass. Speech Database Development: TIMIT and beyond. Speech
Communication, 1990. 351-356.
[5] Bengio Y., De Mori R., Flammia G., Kompe H. Phonetically Motivated Acoustic
Parameters for Continuos Speech Recognition Using Artificial Neural Networks, in
Eurospeech-91, Genova, Italy, 1991, 551-554.
[6] Flammia G. Speaker Independent Consonant Recognition in Continuos Speech with

Distinstive Phonetic Features. M.Sc. Thesis, McGill University, Montreal, Canada, 1991.
[7] Esposito A., Ezin C.E., M. Ceccarelli, 1996. Preprocessing and Neural Classification of
the English stops [b,d,g,p,t,k]. ICSLP 96, ed.s T. Brunnel and W. Idsardi, 1996, vol.2, pp.
1249-1252.
[8] Esposito A., Izzo G., M. Marinaro. Preprocessing and Classification of English Stops,
Nasals, and Fricatives. IIASS internal report n. 19801, Via Pellegrino 19, 84019 Vietri sul
Mare (SA). Italy, 1998.
[9] Waibel A., Hanazawa, T., Hinton, G.E., Shikano, K., Lang, K.J. Phoneme Recognition
using Time Delay Neural Networks. Technical Report TR-1-0006, ATR Interpreting
Telephony research Laboratories, 1987.
[10] Waibel a., Sawai H., and Shikano K. Modularity and Scaling in Large Phonemic
Neural Networks. Technical Report TR-10034, ATR Interpreting Telephony Research
Laboratories, July, 1988.
[11] Waibel a., Hanazawa, T., Hinton, G.E., Shikano, K., Lang, K.J. Phoneme Recognition
Using Time Delay Neural Networks. IEEE Trnas. Acoust. Speech Signal Process, 1989,
37(3), 328-339.
[12] Lawrence S., Tsoi A. C., Back D., 1996. The Gamma MLP for speech phoneme
recognition. In Advances in Neural Information Processing Systems, Touretzky D., Mozer
M., and Hasselmo M. (editors), pp. 785-791, MIT press.
[13] Bernal Bermdez J., Bobadilla Sancho J., Gmez Vilda P. , 2000. Reconocimiento de
Voz y Fontica Acstica, Cap. 3 Fontica Acstica
[14] G. Green, Temporal aspects of audition, Ph. D. Thesis, Oxford, 1976.
[15] ______, Auditory model for para metrization of speech in real-life environment based
on re-integration of temporal derivative of auditory spectrum, U S WEST Advanced
Technologies Res. Rep., File Folder ST 04-01, Oct. 1990.
[16] H. Hermansky, N. Morgan, A. Bayya, and P. Kohn, Compensation for the effect of
the communication channel in auditory-like analysis of speech (RASTA-PLP), Proc,
EUROSPEECH91 (Genova), 1991, pp. 1367-1370.
[17] E. Zwicker, Die Grenzen der Hoerbarkeit der Amplitudenmodulation under der
Frequezmodulation cines Tones, Acustica, vol. 2 pp. 125-133. 1952.
[18] H. Hermansky, Member, IEEE, and N. Morgan, Senior Member, IEEE, RASTA
Processing of Speech, IEEE Transactions on Speech and Audio Processing, Vol. 2, No. 4.
October 1994.
[19]Esposito A., Ceglia R., 1999. Phonemes Clasification with Recurrent Neural Networks.
International Institute for Advanced Scientific Studies (IIASS) Vietri sul Mare (S.A.), Italy,
INFM, Salerno University

Algo Sobre Voz

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Algo Sobre Voz

Загружено:

Авторское право:

Доступные форматы

UNIVERSIDAD AUTNOMA

CIENCIAS BASICAS E INGENIERIA

ANALISIS DEL PROCESAMIENTO FRONT-END PARA

1. LA SEAL DE LA VOZ: PRODUCCION, PERCEPCION Y

1.1 EL PROCESO DE PRODUCCION Y PERCEPCION DEL HABLA EN EL

1.2 REPRESENTACION DEL HABLA EN EL DOMINIO DEL TIEMPO Y

1.3 SONIDOS DEL IDIOMA INGLES AMERICANO Y SUS

1.3.1 Las vocales

1.4 SONIDOS DEL IDIOMA ESPAOL Y SUS CARACTERISTICAS

2. EVENTOS ACUSTICOS EN LA PRONUNCIACION DE LAS VOCALES

2.1 ANCHO DE BANDA PARA LAS VOCALES

2.2 TRES TIPOS DE VOCALES: ALTAS, BAJAS E INTERMEDIAS

2.2.1 Las vocales altas: baja frecuencia de la primera formante

2.2.2.1 Vocales bajas

2.3 POSICION DE LA LENGUA FRENTE-ATRS

2.3.1 Vocales bajas

2.4 ALGUNOS ATRIBUTOS DE VOCALES EN UN SISTEMA BASADO EN

2.5 LA CARACTERISTICA DEL DOBLAMIENTO: MEJORANDO LA

2.6 DISTINCIONES DE LAS CONSTRICCIONES-NO CONTRICCIONES O

2.7 NASALIZACION DE VOCALES

3. APROXIMACIONES AL RECONOCIMIENTO AUTOMATICO DEL

3.1 APROXIMACION USANDO FONETICA ACUSTICA

3.2 APROXIMACION POR RECONOCIMIENTO DE PATRONES

3.3 APROXIMACION POR INTELIGENCIA ARTIFICIAL (IA)

3.3.1 Fundamentos de Redes Neuronales

4. PROCESAMIENTO DE SEALES Y METODOS DE ANALISIS PARA

4.1 MODELOS DE ANALISIS ESPECTRLAL

4.2 EL PROCESADOR DE BANCO DE FILTROS FRONT-END

4.2.1 Implementacin del Banco de Filtros

4.3 MODELO DE CODIFICACION LINEAL PREDICTIVO PARA

4.3.1 El Modelo LPC

5. ANALISIS PERCEPTUAL LINEAL PREDICTIVO (PLP) DE LA SEAL DE

5.1 LA TECNICA PLP

7. TRABAJOS PREVIOS: CLASIFICACION DE FONEMAS USANDO RNA Y

1.1 EL PROCESO DE PRODUCCION Y PERCEPCION DEL HABLA EN EL

El proceso de produccin de la voz inicia cuando el hablante formula un mensaje

Una vez que la seal de la voz es generada y propagada hasta el oyente,

Un canal de transmisin se encarga de transmitir (por alguna de las tcnicas de

El nivel ms alto de procesamiento es en el cerebro convirtiendo la seal

El aire entra al pulmn a travs de un mecanismo normal de respiracin. El flujo

1.2 REPRESENTACION DEL HABLA EN EL DOMINIO DEL TIEMPO Y EN

Una alternativa para caracterizar la seal de la voz y representar la informacin

Otra forma de representar las variaciones de la seal en el tiempo es con una

1.3 SONIDOS DEL IDIOMA INGLS AMERICANO Y SUS

El nmero de distintos sonidos lingsticos del habla en un lenguaje es

1.3.1 Las vocales

Hay varias formas de clasificarlas; una forma tpica es por la configuracin de

En este tringulo solo se toman en cuenta las diez principales vocales ms

Un diptongo se define como un deslizamiento monosilbico del sonido de la voz

1.3.4 Consonantes nasales

1.3.5 Fricativos no sonoros

1.3.6 Fricativos sonoros

1.3.7 Oclusivos sonoros y no sonoros

1.4 SONIDOS DEL IDIOMA ESPAOL Y SUS CARACTERSTICAS

Para ilustrar los aspectos ms significativos de cada sonido se emplearan

La vocal /a/ es central, abierta y sonora; en algunos estudios realizados

La vocal /e/ es anterior, media y sonora; en el mismo estudio haciendo tres

La vocal /i/ es anterior, cerrada y sonora. Haciendo el mismo experimiento con

Para la vocal /o/, que es posterior, media y sonora, haciendo el mismo

Finalmente para la /u/ que es posterior, cerrada y sonora, de un experimento

1.4.2 Consonantes Oclusivas

Los fonemas bsicos son:

/p/ Punto de articulacin labial. Ejemplo pasa.

/b/ Punto de articulacin labial. Ejemplo bado.