Академический Документы
Профессиональный Документы
Культура Документы
METROPOLITANA- IZTAPALAPA
LICENCIATURA EN COMPUTACION
Alumnos:
LILIANA CARRILLO DIAZ
OSCAR GONZALEZ REYES
Asesorados por:
FABIOLA MARGARITA MARTINEZ LICONA
ALMA EDITH MARTINEZ LICONA
SEPTIEMBRE DE 2003
INDICE
1.4.1 Vocales
1.4.2 Consonantes oclusivas
1.4.3 Consonantes nasales
1.4.4 Consonantes fricativas
1.4.5 Consonantes lquidas
6. RASTA
8. NUEVOS EXPERIMENTOS
8.1 Caracterizacin
8.2 Experimentos para las vocales del ingles americano
8.2.1 Descripcin de los datos obtenidos del melcepst en las
vocales de voces femeninas
8.2.2 Descripcin de los datos obtenidos del melcepst en las
vocales de voces masculinas
8.3 Experimentos para las vocales del espaol
8.4 Resultados obtenidos con la Red Neuronal.
8.5 Conclusiones
1. LA SEAL DE LA VOZ: PRODUCCION, PERCEPCION Y
CARACTERIZACION FONETICA-ACUSTICA
Algo parecido debe pasar con una mquina de reconocimiento del habla.
Primero se crea el texto impreso por la mquina generadora (50 bps -bits por segundo-,
o sea 8 sonidos por segundo, donde cada sonido es uno de 50 sonidos fundamentales
distintos). Despus sigue la conversin del cdigo del lenguaje con la inclusin de
informacin prosdica (200 bps). En alguna parte, en el siguiente estado la
representacin, la informacin en la seal llega a ser continua con un promedio de 2000
bps para el nivel del control neuromuscular, y cerca de 30,000-50,000 bps para el nivel
de la seal acstica.
Los pulmones y los msculos asociados actan como la fuente de aire para
excitar el mecanismo vocal. El aire atraviesa los bronquios y la trquea. Cuando las
cuerdas vocales se tensan, el flujo de aire causa su vibracin, produciendo los sonidos
de la voz. Cuando las cuerdas vocales estn relajadas, el aire esta pasivo pero una
contraccin produce una turbulencia generando los sonidos sin voz. El habla es
producida por una secuencia de sonidos. El estado de las cuerdas vocales, tal como su
posicin, forma y tamao de las variadas articulaciones, cambian reflejando el sonido
que producen.
La seal del habla vara muy poco en un corto perodo de tiempo (5 a 100 ms).
En perodos ms largos cambia (1/5 de s o ms) reflejndolo en los diferentes sonidos
del habla. El silencio que antecede a una frase se ve como la baja frecuencia inicial de
una grfica de frecuencia.
Hay varias formas de clasificar (etiquetar) eventos del habla. Tal vez la ms
directa es por el estado de la fuente de produccin del habla, es decir las cuerdas
vocales; usando tres estados de representacin: 1. silencio, cuando no se ha producido el
habla, 2. sin voz o sordos (voiceless), cuando las cuerdas vocales no vibran, 3. con voz
o sonoros (voiced), cuando las cuerdas vocales son tensadas y vibran peridicamente.
La segmentacin no es exacta entre estos tres estados, en algunos casos es difcil
distinguir un sonido dbil despus del silencio, sonidos sonoros desde sonidos sordos o
desde el silencio.
Las vocales son tal vez la clase de sonidos ms interesantes en ingls. El sonido
de las vocales es producido principalmente por la posicin de la lengua, pero la posicin
de la mandbula, los labios y el velum tambin influyen en el sonido resultante. La
duracin de las vocales es larga en comparacin con el sonido de las consonantes y son
espectralmente bien definidas. Son significativas para el reconocimiento del habla del
humano y de la mquina.
Las vocales frontales (IY, IH, EH, AE) muestran alta frecuencia, las vocales
medias (AA, ER, AH, AX, AO) muestran un balance de energa y en las vocales
dorsales (UW, UH, OW) predomina la informacin espectral de baja frecuencia. Esta
conducta es evidente en las grficas de los espectrogramas donde las vocales frontales
muestran una segunda y tercera alta formante de frecuencia, las medias presentan
formantes de frecuencia bien separadas y balanceadas y las vocales dorsales,
especialmente la /u/ (UW), muestran poca energa, observando la primera y segunda
formantes con baja frecuencia. Pero tambin se debe considerar la variabilidad de
pronunciacin entre hombres, mujeres y nios con diferente acento regional y otras
caractersticas variables.
Se pueden hacer grficas con elipses que encierren cada clase de vocal, pero se
tendr la sobreposicin de estas elipses. Una forma de explotar la informacin que se
encuentra para cada vocal es encontrar el centroide en el espacio de la formante
representando el promedio de las caractersticas de formantes. Se puede generar un
tringulo de la clasificacin de las vocales de acuerdo con la posicin de sus formantes
como lo muestra la Fig. 1.3.
Con este tringulo se hace una buena representacin de las vocales, donde los
extremos representan la localizacin en el plano F1-F2.
Figura 1.3 Triangulo de las vocales
Tabla 1. Frecuencias de las 3 primeras formantes para las vocales tipicas americanas
1.3.2 Diptongos
El grupo de sonidos consiste de /w/, /l/, /r/ y /y/ difciles de analizar. Son
generalmente caracterizados por un deslizamiento en funcin del rea del tracto vocal
entre fonemas adyacentes. Estn fuertemente influenciadas por el contexto en el que se
encuentren. Son transiciones de sonidos como el de las vocales.
Las consonantes nasales /m/, /n/ y / / son producidas por exitacin glotal y
contriccin total del tracto vocal. La boca sirve como cavidad resonante que atrapa la
energa acstica. Son caracterizadas por ser espectralmente anchas. Son distinguidas de
acuerdo con el lugar del tracto oral en el que la contriccin se hace para producirlas, la
/m/ en los labios, la /n/ justo detrs de los dientes y la / / en el velum.
Son /f/, / /, /s/ y /sh/ producidos por exitacin del tracto vocal por el estable flujo
de aire, con lo que se crean turbulencias de flujo de aire en la regin de la constriccin
del tracto vocal. La localizacin de la constriccin sirve para determinar que sonido se
produce, asi, la /f/ tiene la constriccin cerca de los labios, la / / cerca de los dientes, la
/s/ cerca de la mitad de la cavidad oral y la /sh/ cerca de la parte posterior de la cavidad
oral. El sistema para producirlas consiste de una fuente de ruido con una constriccin
que parte en dos el tracto vocal.
Los fricativos sonoros /v/, /th/, /z/ y /zh/ son la contraparte de los fricativos no
sonoros /f/, / /, /s/ y /sh/ respectivamente, ya que el lugar de la constriccin es
esencialmente el mismo para cada uno. Estos sonidos tienen dos fuentes de ruido, la
glotis (orificio superior de la laringe entre las dos cuerdas vocales inferiores) y el flujo
de aire de las turbulencias provenientes de las cuerdas vocales.
Las consonantes oclusivas sonoras /b/, /d/ y /g/ son transitorias, sonidos no
continuos producidos por la presin de la constriccin en la cavidad oral y la sbita
liberacin de la presin. Para la /b/ la oclusin es en los labios, la /d/ atrs de los dientes
y la /g/ cerca del velum. Las formas de onda de las consonantes de paro dan mucha
informacin sobre ellas.
Las consonantes oclusivas no sonoras o sordas /p/, /t/ y /k/ son similares a sus
contraparte /b/, /d/ y /g/, con la excepcin de que para las no sonoras, cuando se cierra
totalmente el tracto vocal, las cuerdas vocales no vibran.
1.4.1 Vocales
En el lenguaje espaol se tienen cinco vocales /a/, /e/, /i/, /o/ y /u/. Las vocales
presentan estructuras de formantes bien definida debido a la emisin del flujo de aire
por el conducto bucal sin apenas resistencia y con las cavidades resonadoras
potenciando los armnicos distintivos de cada vocal. Su situacin exacta vara segn el
hablante y la realizacin del habla. Las posiciones relativas de las dos primeras
formantes son:
i e a o u
Figura 1.4 Posiciones relativas de las dos primeras formantes para las vocales
Este tipo de sonidos, al igual que en el idioma ingls, surge del cierre u oclusin
de los rganos fonadores durante un intervalo de tiempo, seguido de su apertura con la
siguiente salida brusca de aire (explosin).
oclusivas sordas:
oclusivas sonoras:
Los sonidos oclusivos sordos presentan una zona de silencio seguida por una
breve barra de explosin vertical, que tiene mayor duracin temporal en el sonido [k].
La barra de explosin contiene ms energa en la zona baja del espectro en el caso
bilabial, en la zona media cuando se trata del sonido [t] y en la parte alta para [k].
[m] Bilabial, sonido del fonema /m/. Tambin cuando el fonema /n/ precede a
una consonante labial /p/, /b/ o /m/. Ejemplo mam.
[ ] Labidental, cuando el fonema precede a una /f/. Ejemplo un farol.
[ ] Linguointerdental, cuando el fonema precede a / /. Ejemplo un cero.
[ ] Linguodental, cuano el fonema precede a /t/ o /d/. Ejemplo un torno.
[n] Linguoalveolar, cuando el fonema precede a vocal, consonante alveolar o
pausa. Ejemplo un loro.
[ ] Linguopalatizada, cuando el fonema precede a una consonante palatal.
Ejemplo un chico.
[ ] Linguovelar, sonido del fonema / / . Tambin cuando el fonema precede a
una consonante velar, /k/, /g/ o /x/. Ejemplo caa.
Existen cinco fonemas fricativos: /f/ (ejemplo caf), / / (ejemplo zona), /s/
(ejemplo casa), / / y /x/ (ejemplo paje). A cada fonema le corresponde un sonido,
salvo / / que presenta dos alfonos:
Las fricativas se diferencian de las dems consonates por el ruido que presentan.
Para distinguir las fricativas entre s, se recurre a determinar la altura frecuencial a la
que se presenta su mayor energa. La mayor parte de estos sonidos poseen resonacias
altas.
Se producen al pasar el aire por la cavidad bucal con una oclusin central o
lateral, de manera que estas consonantes se encuentran acsticamente entre las vocales y
las dems consonantes. Los fonemas lquidos son:
Laterales: /l/ y / /.
Vibrantes: /r/ y / /.
Alfonos de /l/:
Sonidos vibrantes:
Debido a la poca resistencia a la salida del aire que existe en las consonantes
laterales, acsticamente existen formantes similares a los sonidos voclicos. Las
vibraciones se producen por medio de interrupciones a la salida del aire. La vibrante
simple presenta una breve oclusin, mientras que en la mltiple se producen varias
oclusiones seguidas.
2. EVENTOS ACUSTICOS EN LA PRONUNCIACION DE LAS
VOCALES
Cuando la fuente de sonido es una del tipo donde el volumen se desplaza a una
velocidad como la glotis y cuando el tracto vocal se toma como un tubo sin
obstrucciones ni modos de cruzamiento, la funcin de transferencia desde la fuente
hasta la abertura de la boca es una funcin todo polos, definida para la frecuencia y
ancho de banda de los mismos. Cuando la forma del tracto vocal se ajusta por la lengua
y otras estructuras, las frecuencias de los polos o formantes cambian a nuevas
posiciones con lo que podra cambiar tambin el ancho de banda de la formantes. De
hecho hay relacin entre las formas del tracto vocal y las frecuencias formantes.
El ancho de banda de las formantes est determinado por las prdidas acsticas
en el tracto vocal. Estas prdidas pueden surgir debido a factores como: las paredes del
tracto vocal, la viscosidad, la conduccin de calor y la radiacin; su contribucin es
aproximadamente la misma para diferentes hablantes, excepto por diferencias en escala.
Las prdidas por las paredes del tracto vocal provocan bajas frecuencias, y con la
radiacin se generan altas frecuencias.
Existe una gran relacin entre la forma del tracto vocal y las frecuencias
formantes de las vocales. Si se hace una similitud del tracto vocal con un tubo uniforme
que se va cerrado hacia atrs en la glotis y cuyo otro extremo se abre en los labios, la
disminucin en el rea de la seccin transversal en la parte frontal del tubo (regin velo
farngea), o el incremento del volumen en la parte posterior (rea de la seccin
transversal en la mitad posterior del tubo o regin farngea), provocan un decremento de
la primera formante (F1). El efecto de angostamiento en esta regin es acompaado por
un levantamiento del cuerpo de la lengua, esto es, el dorso de la lengua queda a pocos
milmetros del paladar blando o duro.
Las vocales /i/ y /u/ son llamadas vocales altas debido al levantamiento del
cuerpo de la lengua provocando una posicin alta de la lengua al pronunciarlas. La /i/ se
produce con una posicin hacia delante del cuerpo de la lengua y la /u/ con una posicin
en retroceso de la lengua. La posicin precisa de la lengua para pronunciar estas vocales
tambin involucra un ajuste de la mandbula. As, el paso del aire que queda entre la
posicin correcta (levantada) del dorso de la lengua y el paladar produce una baja
frecuencia de la primera formante ya que se decremento el rea dela seccin transversal
debido a la contraccin.
Haciendo una comparacin entre las vocales altas (/i/ y /u/) y las vocales bajas
(provocadas con una posicin baja de la lengua como la /a/), se tiene que para las
vocales altas, la primera formante es baja y cercana a la frecuencia fundamental (F0),
mientras que para las vocales bajas el espacio entre F1 y F0 es grande y tienen un
profundo valle espectral en el rango de frecuencia debajo de F1.
Las vocales altas, pueden ser descritas acsticamente por tener un espectro con
slo una marca angosta y oscura de baja frecuencia sumergida en el espectro abajo del
primer pico espectral.
Para las vocales altas, el ms bajo borde prominente de la primera formante est
muy cercano de la lnea base, en cambio para las vocales bajas se tiene una abertura
sustancial entre la lnea base y el ms bajo borde del pico de la primera formante.
Este patrn de respuesta esta en contraste para la respuesta de las vocales bajas,
para las cuales la primera formante est suficientemente desplazada de la componente
fundamental; estas vocales tiene diferente poblacin de auditorio de fibras nerviosas las
cuales muestran sincrona con la frecuencia fundamental y la primera formante de
frecuencia.
Para las vocales no altas, F1 es ms alta que para las altas vocales, y el espacio
entre F0 y F1 es usualmente ms grande que 3 bark. El espacio entre F0 y F1 es
suficiente para que el auditorio de fibras nerviosas con frecuencias caractersticas
cercanas a F0 muestren sincrona con F0 y su sincrona no sea dominada por F1, como
en las vocales altas. Las fibras con caractersticas de frecuencia en la vecindad de F1
muestran sincrona con F1.
Dentro de la clase de las vocales no altas se tienen dos posibilidades: las vocales
bajas que se caracterizan por una alta frecuencia (mxima) en la primera formante y las
vocales no bajas o intermedias para las cuales la frecuencia de la primera formante
est inmediatamente entre la frecuencia de las altas vocales y las bajas vocales. Cada
una de estas dos clases de vocales no altas tiene distintos atributos acsticos, de
percepcin y de articulacin.
Hay varias condiciones o marcas que estn disponibles para ayudar al hablante a
lograr una estable y repetible configuracin de articulaciones para la produccin total de
un sonido con propiedades estables para las vocales bajas. La superficie de la lengua es
colocada abajo en la parte frontal del tracto vocal, esta baja posicin asegura que los
bordes laterales de la lengua estn debajo de los dientes superiores, sin contacto entre
ellos; con los que s puede tener contacto es con los dientes inferiores.
Las limitaciones sobre el rea mnima de la seccin transversal farngea
necesaria para producir las vocales bajas quedan determinadas por factores acsticos y
aerodinmicos. El rea de la seccin transversal es reducida, la reduccin en el tamao
de la constriccin para vocales bajas podra estar limitado por el rea de la seccin
transversal que es ms grande que el valor crtico; este valor esta probablemente entre
0.2 y 0.4 cm2 para el tracto vocal de un adulto. La estrategia para producir una vocal
baja, es ajustar la contraccin farngea para obtener una F1 que sea tan alta como sea
posible imponindose sobre los factores aerodinmicos.
La forma del tracto vocal para la vocal baja /a/ puede ser aproximado por la
configuracin de un tubo estrecho como la glotis en un extremo y un tubo ancho como
la boca, en el otro extremo. As, la mxima frecuencia de la primera formante es
obtenida cuando los dos tubos, el ancho y el angosto tiene aproximadamente la misma
longitud. Cuando las longitudes de los dos tubos son aproximadamente iguales, la
frecuencia de la primera formante es ms alta que cuando el radio de las reas de los
tubos de atrs y de adelante decrecen.
El rea mnima de la seccin transversal para la faringe est reportada para estas
vocales, en el caso de hombres adultos, entre los 0.6 cm2 para la /a/. En el caso de la
vocal /ae/, los datos de articulacin muestran que la parte estrecha del extremo glotal del
tracto vocal tiende a ser restringido por una longitud de 6 cm, con un rea mnima de
1.0 cm2.
Para las vocales que no son altas ni bajas, la altura del cuerpo de la lengua es
intermedio entre la posicin de la lengua para las vocales altas y las vocales bajas; a
estas les llamaremos vocales intermedias, dos vocales de este tipo son la /e/ y la /o/ para
una posicin hacia delante o hacia atrs de la lengua respectivamente.
Cuando la vocal tiene una F1 alta, esto puede ser observado por fibras de baja
frecuencia con caractersticas de frecuencia en la vecindad de F1 mostrando respuestas
que son sncronas con F1, mientras que las fibras con ms bajas caractersticas de
frecuencia muestran sincrona con F0. Si F1 es suficientemente alta, de cualquier modo
hay fibras sintonizando para frecuencias intermedias (entre F0 y F1) de los cuales las
respuestas no son sncronas para ninguna (ni F0 ni F1). Esto es, F0 y F1 son
suficientemente separables para dominios de frecuencia cercanos de la respuesta de las
fibras.
Cada una de las clases de configuracin de las vocales y las formas espectrales
de baja frecuencia descritas anteriormente tambin pueden ser subdivididas en
categoras dependiendo de la posicin de frente hacia atrs (frente-atrs) de la lengua y
sobre la forma del espectro por encima de la primera formante. El movimiento frente-
atrs es realizado para las diferentes alturas que toma la lengua. Las consecuencias
acsticas del desplazamiento frente-atrs de la lengua son similares para las diferentes
alturas de la lengua.
Para las vocales bajas la lengua es baja en la cavidad de la boca, y hay una
constriccin o estrechamiento de la zona vocal en la relativa regin de la faringe para su
rea seccional en la regin oral.
Vocales hacia delante, entonces, siempre son caracterizadas por una frontera
mnima o espacio vaco en el espectro en el rango medio de la frecuencia entre F1 y
F2. Para una posicin de la lengua hacia atrs, por otra parte, F2 es desplazada hacia
un valor mximo hacia abajo y cerrado hasta F1 para una apropiada seleccin de la
posicin de la lengua. En el caso de las vocales no bajas, un valor de F2 que es el ms
bajo y el ms cerrado hacia F1 puede ser alcanzado por un doblamiento de labios. Una
consecuencia acstica de un valor de F2 que es baja y cerrada hasta F1 es que las
amplitudes de los picos ms altos de frecuencia en el espectro son bajas relativas a las
amplitudes de los picos de F1 y F2, y probablemente no juegan un rol significativo en la
determinacin de cualidades vocales.
Este anlisis inicial, sin embargo, sugiere un sistema bsico de seis vocales, tres
alturas de la lengua, cada una con una posicin hacia delante y hacia atrs. Estas vocales
son normalmente clasificadas en trminos de tres caractersticas binarias, [alta], [baja] y
[atrs].
Fig. 2.1 Grfica de F2 vs. F1, mostrando como las formantes cambian cuando la forma de un tubo acstico
es perturbado en diferentes formas. El punto medio representa igualmente formantes espaciadas para un
tubo uniforme de longitud de 15.4 cm. Las lneas con flechas indican como las formantes de frecuencia
cambian cuando el tubo es modificado, como se muestra por las formas de los tubos. Las esquinas del
diagrama son etiquetadas con los smbolos de las vocales correspondientes aproximadas a las formas de
los tubos. Tambin son mostradas en el diagrama lugares aproximados para las vocales /e/ y /o/.
Valores tpicos de F1, F2 y F3 para las seis vocales bsicas, como medida para el
Ingls Americano producidas por hablantes hombres y mujeres, se muestran en la Tabla
2.1.
(fem) 850 1220 2810 212 2.6 8.1 10.2 15.8 2.1 5.6 5.5
(mas) 730 1090 2440 124 1.7 7.2 9.5 14.8 2.3 5.3 5.5
.o (fem) 600 1200 2540 220 2.7 6.2 10.2 15.1 4.0 4.9 3.5
.o (mas) 450 1050 2610 130 1.8 5.0 9.3 15.2 4.3 5.9 3.2
.u (fem) 370 950 2670 232 2.8 4.2 8.7 15.4 4.5 6.7 1.4
.u (mas) 300 870 2240 137 1.9 3.5 8.2 14.3 4.7 6.1 1.6
Tabla 2.1 Valores de las tres primeras formantes para vocales del ingls americano
El doblamiento de los labios para las vocales no bajas hacia atrs ayuda a
desplazar la segunda formante a una frecuencia que es ms baja que sta, y
consecuentemente decrementa la diferencia en frecuencia entre F2 y F1. Estas
formantes se atraen an ms al introducir el doblamiento para las vocales, adems
tiende a acentuarse la prominencia formada por las formantes y debilitar las
prominencias creadas a altas frecuencias.
Otra ventaja potencial del uso de una configuracin de doblamiento para vocales
no bajas hacia atrs es que F2 para a un mnimo valor, como el de la posicin de la
constriccin de la lengua, es desplazada a travs de la parte superior de la faringe y la
regin velar de la zona vocal. Cuando la lengua se encuentra en esta posicin se produce
un mnimo en F2, y tanto F1 como F2 son relativamente intensas a cambios en la
posicin de constriccin; por eso la precisin con la cual la constriccin debe ser
localizada para dar un valor bajo y estable de F2 no es tan estricta.
Para vocales altas hacia delante existe una prominencia de los picos de F2 y F3.
El cambio de disminucin de la prominencia de frecuencia del espectro en altas
frecuencias es caramente visto. Esta prominencia espectral tambin aparece para ser
ms estrecha y sobresaliente.
Para vocales bajas hacia atrs, F2 es tambin baja, ya que ambas formantes son
influenciadas para algunas extensiones por el ancho de la cavidad frontal. En el caso de
las vocales bajas hacia delante, el doblamiento causa una disminucin de F2 y F3, y
estas formantes tienden a ser ms cercanas entre ellas. Tambin hay una reduccin del
ancho de banda de F3. Estos factores se combinan para producir un pico ms bajo y
prominente.
2.6 DISTINCIONES DE LAS CONSTRICCIONES-NO CONSTRICCIONES O
TENSAS-RELAJADAS
En ingles, las vocales relajadas tienden a ser ms cortas que las vocales tensas.
Las vocales tensas hacia adelante /i/ y /e/ tienden a ser diptongizadas hacia un extremo
ms alto de la posicin de la lengua, mientras que /u/ y /o/ son diptongizadas hacia un
extremo ms bajo de la posicin de la lengua.
Mientras se han descrito los contrastes entre las vocales tensas y relajadas en
trminos de las modificaciones de las formas de la zona vocal y cambios en las
frecuencias de las formantes, hay otras consecuencias acsticas en ajustes de esta zona
vocal que aparecen jugar un rol muy importante para sealar estos contrastes.
- La primera es crear una carga adicional sobre la zona glotal y por ello
incrementar la longitud de la fase de abertura de la vibracin glotal, resultando
un decrecido espectrograma de amplitud de la zona a altas frecuencias. Este
cambio espectral podra amentar la reduccin en amplitudes de alta frecuencia
causada por la ms baja F1 para vocales tensas.
- Aumentar las prdidas acsticas en la zona vocal, particularmente a bajas
frecuencias, llevando a un incremento de la banda ancha de la primera formante.
Este incremento de la banda ancha de F1podra tambin ocurrir para una
configuracin extendida de la glotal.
Hay, sin embargo, situaciones para los cuales, se crean sistemas adicionales
acsticos para la principal va de aire de la zona vocal, dando un aumento de ceros tan
bien como los polos en la funcin de transferencia. Un ejemplo surge del acoplamiento
para el sistema subglotal cuando hay una abertura glotal parcial. Otro ejemplo es el
acoplamiento acstico para la cavidad nasal, que ocurre cuando la abertura de la velo
faringe crea una ruta entre la principal zona vocal y la cavidad nasal. La presencia de
esta abertura de la velo faringe cuando la zona vocal esta en una configuracin como
vocal, causa nasalizacin de la vocal.
Una consonante nasal es producida con una abertura de la velo faringe pero con
una completa estrechez de la principal zona vocal en algn punto de la cavidad oral.
3. APROXIMACIONES AL RECONOCIMIENTO
AUTOMTICO DEL HABLA POR UNA MQUINA
El reconocimiento se basa en las caractersticas acsticas de la seal observada y
lo que se sabe de la relacin entre stas y los smbolos fonticos, este mtodo es
llamado aproximacin fontica-acstica.
1. La aproximacin fontica-acstica.
2. La aproximacin de patrn de reconocimiento.
3. La aproximacin por inteligencia artificial.
Donde las N entradas, etiquetadas con x0, x1, x2,, xn-1, se suman con sus pesos
w0, w1, w2,, wn-1, adems utilizando un umbral, y una compresin no lineal de
compresin da la salida, definida como:
N
y = f ( wi xi ) (3.1)
i=0
2. funcin sigmoidal
f(x) ) tanh ( x), >0 (3.3)
f(x) = 1 , >0 (3.4)
x
1+e
perceptron simple/multicapa.
Hopfield o redes recurrentes.
Kohonen o redes de auto-organizacin.
La red de Hopfield es una red recurrente en la cual la entrada de cada uno de los
elementos computacionales son las entradas pero tambin las salidas. As con las
entradas y salidas indexadas por tiempo, xi(t) y yi(t), y los pesos conectados al ith nodo y
el jth nodo denotado por wij, la ecuacin bsica para el ith elemento recurrente
computacional es:
Para desarrollar una red se deben tomar en cuenta cuatro caractersticas para
especificar la implementacin en una red neuronal arbitraria:
1. Nmero y tipo de entradas. Esto es elegir las caractersticas para los patrones
de clasificacin del sistema.
La especificacin de una red neuronal, los valores para los coeficientes de los
pesos y el umbral para cada elemento computacional pueden ser determinados
basndose en un conjunto etiquetado de datos de entrenamiento. Para el entrenamiento,
se asocian las entradas con las salidas. Para un perceptron multicapa se hace una simple
iteracin, existe un procedimiento de convergencia para escoger el conjunto de
parmetros con valores aproximados asinttica mente a un punto estacionario con una
cierta propiedad ptima; este procedimiento se le llama aprendizaje por retro-
propagacin.
Primero se inicializan los pesos (en el tiempo t=0), luego al adquirir los valores
de la entrada, se calcula la salida mediante alguna funcin de las mencionadas, luego se
van adaptando los pesos y se itera varias veces para obtener los pesos correctos.
PARAMETROS DE
REFERENCIA
SEAL DE
VOZ CONJUNTO SEAL
PARAMETROS DE COMPARACIN DE REGLA DE RECONOCIDA
DE MEDICIN PATRONES PATRONES DECISIN
DETECTOR DE CARACTERISTICAS
CARIACTERISTICA DE VOCABULARIO
1
SEAL DE COMBINADOR DE
VOZ PARAMETROS CARACTERISTICAS, SEAL
DE MEDICIN DECISIN LGICA PROVADOR DE RECONOCIDA
HIPOTESIS
DETECTOR DE
CARIACTERISTICA
Q
FILTRO
PASABANDA X n (eiw1 )
1
SEAL DE
VOZ
s(n)
FILTRO iwQ
PASABANDA X n (e )
Q
Fig. 4.2 Modelo de Anlisis de Banco de Filtros.
La seal de voz, s(n), se pasa a travs de un banco de Q filtros pasa banda, los
cuales abarcan rangos de frecuencia de inters en la seal, por ejemplo 100-3000 Hz
para seales de calidad telefnica o 100-8000 Hz para seales de banda ancha. Los
filtros individuales pueden y generalmente hacen traslapes en frecuencia, como se
muestran en la parte inferior de la Fig. 4.2. La salida del ith filtro pasabanda, Xn(ejwi)
donde wi es la frecuencia normalizada 2fi / Fs, con Fs la frecuencia de muestreo, es la
representacin espectral en tiempo corto de la seal s(n), al tiempo n, como es vista a
travs del ith filtro pasa banda con frecuencia central wi. Esto puede fcilmente ser visto
como en el modelo de banco de filtros, cada filtro pasa banda procesa la seal de voz
independientemente para producir la representacin espectral Xn.
El anlisis del enfoque LPC, como se ilustra en la Fig. 4.3 representa el anlisis
espectral sobre bloques de seal de voz (cuadros de seal de voz) con un modelo de slo
polos.
N M
SEAL DE
VOZ
s(n)
BLOQUE DENTRO ANLISIS CONVERSIN DE
DE CUADROS ESPECTRAL PARMETROS
LPC LPC
an cn
A(z) = 1 + a1z -1 + a 2 z -2 + + a p z -p .
s (n)
M i 1
= h (m)s(n m),
m=0
i (4.1b)
donde hemos asumido que la respuesta de impulso del i-simo filtro pasabanda es hi(m)
con una duracin de Mi muestras; por eso, usamos la representacin de convolucin de
la operacin de filtrado para dar una expresin explcita para si (n), el filtrado pasabanda
de la seal de la voz. Ya que la propuesta del analizador del banco de filtros es dar una
medida de la energa de la seal de la voz en una banda de frecuencia dada, cada una de
las seales pasabanda, si(n), se pasa a travs de una no linealidad, por ejemplo un
rectificador de onda completa o de media onda. La no linealidad cambia el espectro de
la seal a la banda de frecuencias bajas tan bien como crea imgenes de alta frecuencia.
Se utiliza un filtro de pasa bajas para eliminar imgenes de alta frecuencia, dando un
conjunto de seales, ui (n), 1 i Q, el cual representa una estimacin de la energa de
la seal de la voz en cada una de las Q bandas de frecuencia.
Fig. 4.5 Formas tpicas y espectros para el anlisis de una senosoidal pura en el modelo de banco de filtros.
Ya que la salida de la no linealidad puede ser vista como una modulacin en tiempo,
como se muestra en la ecuacin (4.4), en la frecuencia dominante obtenemos el
resultado como
Vi (eiw ) = Si (eiw ) W(eiw ), (4.6)
Donde Vi(eiw), Si(eiw) y W(eiw) son las transformadas de Fourier de las seales vi
(n), si(n) y w(n), respectivamente, y es la convolucin circular. El espectro Si(eiw) es
un solo impulso a w0 = wi, mientras que el espectro W(eiw) en un conjunto de impulsos
en las frecuencias del armnico impar wq = wiq, q = 1,3, , qmax. Por eso el espectro de
Vi(eiw) es un impulso a w = 0 y un conjunto de impulsos de amplitudes ms pequeas a
wq = wiq, q = 2, 4, 6,. El efecto del filtro pasa bajas es retener la componente dc de
Vi(eiw) y filtrar para afuera los componentes de alta frecuencia debido a la no linealidad.
La Fig. 4.6 ilustra formas de onda tpicas de s(n), si(n), w(n) y vi (n) para una
breve seccin de la seal de voz vibrante (20 msec) procesada por un canal de banda
ancha estrecho con centro de frecuencia de 500 Hz (la frecuencia de muestreo para este
ejemplo es 10,000Hz). Tambin se muestran las magnitudes espectrales resultantes para
las cuatro seales. Se puede apreciar que | Si(eiw) | tiene la mayora de su energa
alrededor de los 500 Hz (w = 1000), mientras que | W(eiw) | ,el cual es quasiperidico,
se aproxima a una seal armnica impar con picos en 500, 1500 2500 Hz. El espectro de
la seal resultante, |Vi(eiw) |, muestra la deseada concentracin de energa de baja
frecuencia tan bien como los no deseados picos espectrales en 1000 Hz , 2000 Hz, etc.
El papel del filtro pasa bajas es eliminar los no deseados picos espectrales.
Fig. 4.6 Formas de onda y espectros tpicos de una seal de voz en el modelo de anlisis de banco de filtros.
El clculo de la ecuacin (4.7), es iterada con cada canal i para i = 1,2,...Q. Las
ventajas de la estructura de forma directa son su simplicidad y que funciona para hi(n)
arbitrarias. La desventaja de esta implementacin son los altos requerimientos
computacionales. Por eso, para un banco de filtros IRF con Q canales, donde cada filtro
pasa bandas IRF tiene una respuesta de impulso de L muestras de duracin, requiere
CDFIRF = LQ .,+ (multiplicacin, suma) (4.8)
x i (n) = w(m)eiwi m s (n m)
m
=e iw i n
s(m)w(n m)e
m
iwi m
(4.10a)
La idea bsica detrs del modelo LPC, es que dada una muestra de la seal de
voz en un tiempo n, s(n) puede ser aproximada como una combinacin lineal de las
muestras de seal de voz p, tal como:
donde los coeficientes a1, a2, ...,ap son supuestas constantes sobre el cuadro de anlisis
de seal de voz. Convertimos la ecuacin 4.11 a una igualdad, incluyendo un trmino de
excitacin, Gu(n) dando:
p
s(n) = ai s(n i ) + Gu (n), (4.12)
i =1
S ( z) 1 1
H ( z) = = p
= , (4.14)
GU ( z ) A( z )
1 ai z i
i =1
u(n) s(n)
A(z)
G
Fig. 4.7 Modelo de Prediccin Lineal de la seal de voz.
GENERADOR
DE TREN DE SWITCH DE PARAMETROS
IMPULSOS VIBRATORIA/ DE LA ZONA
NO-VIBRATORIA VOCAL
GENERADOR
DE RUIDO G
ALEATORIO
Ahora describiremos los detalles del procesador LPC front-end, que ha sido
muy utilizado en sistemas de reconocimiento de seal de voz.
N M W(n) p
~
s ( n)
BLOQUEO DE
xt (n) ~
xt (n)
ANALISIS
rm (t )
s(n) PREENFASIS CUADRO VENTANEO DE
AUTOCORRELACIN
w(n)
c~m (t )
Fig. 4.9 Diagrama de bloques del procesador LPC para reconocimiento de la voz.
La Fig.4.9 muestra un diagrama de bloque del procesador LPC, los pasos bsicos
en el procesamiento son los siguientes:
1. Pre-nfasis- La seal de voz digitalizada, s(n), es puesto a travs del sistema digital
de bajo orden (tpicamente un filtro IRF de primer orden) para espectralmente
aplanar la seal y para hacerlo menos susceptible a los efectos de precisin finita
despus del procesamiento de la seal. El sistema digital usado en el pre-nfasis es
cualquier arreglo o lentamente adaptivo, por ejemplo, para condiciones de
transmisin promedio, fondos de ruido, o cualquier espectro de seal promedio. Sin
embargo, la red de pre-nfasis ms usado, es el sistema de arreglo de primer orden:
~
s (n) = s (n) a~s (n 1). (4.16)
El valor ms comn para esta alrededor de 0.95. Para valores de punto fijo, un
valor normalmente usado es = 15/16 =0.9375. Un simple ejemplo de un preenfatizador
adaptivo de primer orden es la funcin de transferencia
H ( z ) = 1 a~n z 1 , (4.17)
donde n cambia con el tiempo (n), de acuerdo con el criterio de adaptacin escogido.
Una posibilidad es escoger n = rn(1)/rn(0). La Fig. 4.10 muestra las caractersticas de
magnitud de H(eiw) para el valor de = 0.95. Puede ser visto que en w = (mitad del
rango de muestra) hay un aumento de 32 dB en la magnitud, que el que hay para w = 0.
Fig. 4.10 Espectro de magnitud de la red de pre-nfasis del LPC para = 0.95.
El proceso continua hasta que toda la seal de voz es contabilizada para dentro de uno o
ms frames. Es fcil de ver que si M N, entonces el frame adyacente se traslapa
(como en la Fig. 4.11) y las estimaciones espectrales LPC resultantes sern
correlacionadas de frame a frame; si M << N, entonces las estimaciones espectrales LPC
de frame a frame sern un poco suaves. Por otra parte, si M > N, no habr
traslapamiento entre frames adyacentes. De hecho, algunas de las seales de voz, se
perdern totalmente, es decir, nunca aparecern en un frame de anlisis, y la correlacin
entre las estimaciones espectrales LPC resultantes de frames adyacentes contendrn un
componente de ruido, cuya magnitud incrementa como incrementa M, es decir, mientras
ms seal de voz sea omitida del anlisis. Esta situacin es intolerable en cualquier
anlisis prctico LPC para reconocimiento de voz. Si denotamos el frame lth de seal de
voz por xl(n), y hay L cuadros dentro de toda la seal de voz, entonces:
xl ( n) = ~
s ( Ml + n), n = 0,1,..., N - 1, l = 0,1,..., L 1 (4.18)
Esto es, el primer cuadro de seal de voz, x0(n), abarca las muestras de seal de
voz (0), (1), . . . , (N - 1), el segundo cuadro de seal de voz x1(n) abarca las muestras
de seal (M), (M + 1), . . ., (M + N - 1), y el frame Lth de seal de voz xL-1(n), abarca
las muestras de seal de voz (M(L - 1)), (M(L- 1) + 1), . . . , (M(L - 1) + N - 1). Los
valores tpicos para N y M son 300 y 100 cuando el rango de muestreo de la seal de
voz es 6.67 kHz. Esto corresponde a 45 frames por mseg, separados por 15 mseg, o a
66.7 Hz por frame.
~
xl (n) = xl (n) w(n), 0 n N - 1. (4.19)
Una ventana tpica usada para el mtodo de auto correlacin de LPC (el sistema
ms usado para sistemas de reconocimiento) es la ventana de Hamming, la cual tiene la
forma:
2n
w(n) = 0.54 0.46 cos , 0 n N - 1. (4.20)
N 1
4. Anlisis de Auto correlacin - Cada frame de seal ventaneada es prxima auto
correlacionada, para dar:
N 1 m
rl (m) = ~x (n) ~x (n + m),
n =0
l l m = 0, 1, , p, (4.21)
donde el valor de auto correlacin ms alto, p, es del orden del anlisis LPC. Han sido
usados valores tpicos para p, de 8 a 16; siendo p = 8 el valor ms usado en la mayora
de los sistemas. Un beneficio del anlisis de auto correlacin, es que la auto correlacin
cero-sima, Rl(0), es la energa del frame lth. El frame de energa es un parmetro
importante para sistemas de deteccin de seal de voz.
r (i ) j r (|i j|)
( i 1)
ki = 1ip (4.23)
E ( i 1)
i
(i)
= ki (4.24)
E ( i ) = (1 k i2 ) E (i 1) (4.26)
1 km
g m = coeficientes de proporcin de amplia rea = log . (4.29)
1 + km
c0 = ln 2 (4.30a)
m 1
k
cm = a m + c k a m k . 1 m p (4.30b)
k =1 m
m 1
k
cm = c k a m k . m>p (4.30c)
k =1 m
w
[ ]
log S (e iw ) = ( jm)cm e jwm
m =
(4.32)
w
[ iw
]
log S (e ) = c$m e jwm
m =
(4.33)
donde
c$m = wm cm , 1 m Q. (4.35)
Q m
wm = 1 + sin , 1 m Q. (4.36)
2 Q
c (t )
t
[ ]
log S (e , t ) = m e jwm
iw
m = t
(4.37)
Por eso, la derivada cepstral temporal debe ser determinada en una manera
apropiada. Ya que es bien sabido que cm (t ) es una representacin del tiempo discreto
(donde t es el frame ndice), usar simplemente una diferencia de primer o segundo orden
es inapropiado para aproximar la derivada ya que resulta muy ruidoso. Por eso, una idea
razonable es aproximar cm (t ) / t con un polinomio ortogonal sobre una ventana de
longitud finita; esto es:
cm (t ) k
= cm (t ) kcm (t + k ), (4.38)
t k = K
Adems, cada uno de estos parmetros puede ser variado sobre un amplio rango
de valores, la siguiente tabla muestra valores tpicos para sistemas de anlisis en tres
diferentes rangos de muestreo (6.67 kHz, 8 kHz, 10 kHz).
Una nueva tcnica para el anlisis de seal de voz, la tcnica de prediccin lineal
perceptual (PLP), la cual se explica a continuacin. Esta tcnica usa tres conceptos de la
psicofsica del odo para derivar una estimacin del espectro auditivo:
1. la resolucin espectral de la banda crtica
2. la curva de igualdad de igualdad de fuerza (equal-loudness)
3. la ley de energa (intensity-loudness)
El espectro auditivo es aproximado por un modelo solo polos auto regresivo. Un
modelo solo polos de 5 orden es efectivo en ocultar detalles del espectro auditivo de un
hablante dependiente. En comparacin con el convencional anlisis lineal predictivo
(LP), el anlisis PLP es ms consistente con el odo humano. La efectiva segunda
formante F2 y teoras de integracin de percepcin de vocales con picos espectrales de
3.5 Bark se toman tambin en cuenta. El anlisis PLP es computacional mente eficiente
y produce una representacin de la seal de voz de baja dimensin. Se ha encontrado
que estas propiedades pueden ser utilizadas en el reconocimiento automtico de seal de
voz de un hablante independiente.
El modelo solo polos auto regresivo A() del espectro de energa de la seal de
voz P(), estimado por anlisis linear predictivo (LP), es ampliamente utilizado. El
modelo solo polos puede ser descrito en diferentes espacios paramtricos de muchas
formas. Tambin se puede disponer de relativamente simples y a veces computacional
mente eficientes transformaciones entre espacios paramtricos. Cuando el orden del
modelo es elegido adecuadamente, A() aproxima las reas de la concentracin de alta
energa en P(), mientras suaviza la fina estructura armnica y otros detalles espectrales
menos relevantes.
Una vez que vimos el anlisis LP como el principal para obtener la carta
espectral suavizada de P(), podemos ver que una de las principales desventajas del
modelo LP solo polos en anlisis de seal de voz es que A() aproxima P()
igualmente bien a todas las frecuencias de la banda de anlisis. Esta propiedad es
inconsistente con el odo humano. Ms all de los 800 Hz, la resolucin espectral del
odo decrece con frecuencia. Ms aun, para niveles de amplitud tpicamente encontrados
en seales de voz, el odo es ms sensitivo en la mitad del rango de frecuencia del
espectro audible. Consecuentemente, los detalles espectrales de P() no siempre son
preservados o descartados por el anlisis LP de acuerdo a su prominencia auditiva.
Varias tcnicas han sido propuestas para corregir esta inconsistencia. Itahashi y
Yokoyama (1976) pandean el espectro del modelo LP de alto orden dentro de la escala
de mel y la pre-enfatizan a travs de una curva previa equal-loudness a un segundo
modo LP de 6 orden. Makhoul y Cosell (1976) intentan varias funciones espectrales-
pandeadas sobre P() previo a su aproximacin por A(). Strube (1980) propone
espectros pandeados como mel, a travs de un filtrado de todo paso en el dominio del
tiempo.
El bajo orden del modelo solo polos muestra cmo un espectro auditivo es
consistente con varios fenmenos observados en la percepcin de la seal de voz.
Adems muestra cmo un modelo puede ser empleado con ventaja en reconocimiento
automtico de seal de voz de un hablante independiente.
En la tcnica PLP, varias propiedades bien conocidas del odo son simuladas por
aproximaciones de ingeniera prctica, y el resultante espectro auditivo de la seal de
voz es simulado por un modelo autor regresivo solo polos. Un diagrama de bloques del
mtodo PLP se muestra en la Fig.5.1.
SEAL DE VOZ
ANLISIS DE LA TRANSFORMADA DE
BANDA CRTICA FOURIER DISCRETA
INVERSA
Fig. 5.1 Diagrama de Bloques del Anlisis Perceptual Linear Predictivo (PLP) de Seal de Voz.
5.1.1. Anlisis espectral.
Los pesos para el segmento de seal de voz son obtenidos con la Ventana de
Hamming
2 .5
( i ) = P( ) ().
= 1.3
i (5.5)
() = () 0.33 (5.8)
Esta operacin es una aproximacin a la ley de energa del odo (Stevens, 1957)
y simula la relacin no lineal entre la intensidad del sonido y su percibida fuerza. Junto
con el pre-nfasis psicofsico de la equal-loudness, esta operacin tambin reduce la
variacin de la amplitud espectral del espectro de la banda crtica, para que as el
siguiente modelo solo polos pueda ser dado por modelo de orden relativamente bajo.
wih
[( wi )] = w ( w) P( w).
w = wi
i (5.9)
Fig. 5.1. Las 16 funciones de peso wi(w) usados para el clculo de 16 muestras del espectro auditivo () del
espectro de energa P(w) con cuadros de 20 ms de la seal de voz muestreada a 10 kHz.
Los efectos del medio ambiente pueden ser modelados por un conjunto de
simples transformaciones y por convolucin como una respuesta impulsiva del medio
adems de ruido. Al experimentar con aproximaciones de filtrados que procuran la
explotacin de las diferencias, se producen robustas representaciones para el
reconocimiento del habla que al incrementarse producen una clase de representacin
relativa espectral (RASTA). As al ver la relacin entre los fundamentos experimentales
y la percepcin auditiva en el ser humano se extiende el mtodo original al incorporarle
ruido y ruido de convolucin.
El habla tiene muchas fuentes de informacin, pero no todas ellas son relevantes.
Convencionalmente los trminos cortos, basados en espectrogramas son las tcnicas de
anlisis del habla que ms informacin de componentes en la seal provee. Entonces, la
intensidad de los datos de las tcnicas estocsticas son comnmente aplicadas para
reducir los efectos de la informacin irrelevante. La reduccin de informacin
irrelevante en el mdulo del anlisis del habla puede incrementar la eficacia de la
cantidad finita de datos de entrenamiento.
Green [14] cita experimentos recientes de Riesz [21] que fueron luego
confirmados por Zwicker [17] y Green[14], en los cuales se indica una sensibilidad ms
grande del odo humano para modulacin de frecuencias alrededor de 4 Hz ms abajo (o
ms arriba) de la modulacin de frecuencias normal.
Un experimento realizado hace unos aos consiste en el procesamiento completo
de un enunciado mediante un filtro que aproxima la inversa del espectro en tiempo corto
como envolvente del centro de una de las vocales del enunciado. As, el espectro de la
vocal dada lleg a ser aproximadamente escrita, por lo que el resto del enunciado es
perfectamente entendible. Muchas expresiones formales suponen que esta nocin fue
hecha por Summerfield y sus colegas quienes mostraron que una percepcin de sonidos
como los de la voz dependen del sonido precedente, o sea que ste depende de la
diferencia espectral entre el sonido comn y el sonido anterior.
Haciendo anlisis del habla menos sensitivo, para los cambios suaves con
factores de estado estable en la seal de voz, se remplaza una banda crtica espectral de
tiempo corto en el analizador del habla PLP [2] con un determinado espectro en el cual
cada canal de frecuencia es filtrado pasa-banda por un filtro con un agudo espectro cero
en la frecuencia cero. Esta operacin suprime desde una constante o componente
variado suavemente en cada canal frecuencial dando un nuevo espectro estimado que
resulta menos sensitivo a variaciones suaves en el espectro de tiempo corto [15], [16].
Los pasos de RASTA-PLP son los siguientes para cada estructura (frame) de
anlisis:
1 0.98 z-1
En (6.1) el corte de baja frecuencia es 0.26 Hz. La pendiente del filtro desciende
6dB/oct desde 12.8 Hz con ceros agudos hasta 28.9 y a 50 Hz.
Voz
Anlisis Espectral
Procesamiento Opcional
Tabla 5. Porcentajes de error para experimentos del habla con hablantes continuos independientes [20]
Los errores resultantes del trabajo son mostrados en la tabla 5, donde se observa
que el RASTA tiene una ligera degradacin de funcin de los datos limpios pero el error
es reducido a la mitad para el caso del filtrado.
y la original:
para el punto dos del filtro y el punto cinco del filtro MA.
y = ln (1 + Jx) (6.4)
x = ey 1 (6.5)
J
Se usa una inversa aproximada como una expansin esttica no lineal en el paso
4 del procesamiento RASTA.
x = ey (6.6)
J
N
i = ci0 (S/N) + cik (S/N) Xk (S/N) (6.7)
k=1
donde
Tabla 8. Porcentajes de error de dgitos asilados usando el sistema Gaussiano mezclado HTK-bsico [20]
Como se ha discutido, una de las diferencias ms grandes entre las tcnicas del
convencional anlisis estructura por estructura y el RASTA-bsico es que los del
RASTA dependen de sus resultados anteriores. As, una corta historia empleada en
RASTA efectivamente aumenta las transiciones entre diferentes segmentos de voz y
hace que el resultado sea dependiente de los pequeos segmentos previos de la voz tales
como los fonemas o las slabas.
Tambin el modelo de reconocimiento escogido puede cambiar fuertemente la
apariencia de los efectos del procesamiento RASTA, ya sea entre modelos complejos
(por ejemplo agrupamientos trfono, 5 mezclas) o modelos simples (simples mezclas de
monofonos).
El anlisis PLP usa conceptos de psicofisiologa del odo en orden para derivar
una estimacin del espectro auditivo. El preprocesamiento tipo Rasta-PLP agrega una
operacin de pasa-bandas espectral al anlisis PLP para capturar algunas caractersticas
acsticas de los fonemas.
Esposito y Ceglia utilizaron una red neuronal recurrente con la cual capturan las
relaciones entre las secuencias de eventos acsticos bajo translacin en el tiempo de la
ventana de la seal que est siendo examinada. La arquitectura de la red consiste de una
capa de entrada (con 54 unidades), una capa oculta (con 48 unidades para fricativas, 50
unidades para vocales y 16 unidades para nasales) y una capa de salida (con 6 unidades
para vocales y fricativas y 2 unidades para nasales). La capa de salida fue conectada con
la capa intermedia (hacia atrs). La red fue entrenada usando un algoritmo de back-
propagacin en lnea para redes neuronales parciales.
Al usar esta red, en el reconocimiento para las fricativas (dh, f, sh, z, v, s) los
resultados fueron muy buenos al entrenar con los primeros 30 ms de la seal de la voz.
La red funciona mejor que una red de retardos en el tiempo TDNN (Time Delay Neural
Networks) usada por Waibel [9, 10, 11] y por Esposito [7,8] y mejor que la red Gamma
MLP reportada por Lawrence [12]. Cuando se usan los 30 ms centrales de la seal de la
voz en el entrenamiento, los fonemas [z] y [v] son confundidos, quiz por que no hay
suficiente informacin.
En el caso de las vocales (iy, ae, ao, ux, ax, axr) los mejores resultados se
obtuvieron cuando el conjunto de datos fueron obtenidos de los 30 ms centrales de la
seal de la voz. En este caso la red generaliza muy bien y los resultados de clasificacin
son muy buenos. Cuando se usaron los primeros 30 ms la red no fue capaz de aprender
todas las vocales, teniendo confusiones ms severas entre la [ux] y la [iy].
Para ingls se tomaron los fonemas voclicos de la base de dados TIMIT, una
base de datos que consta de enunciados ledos y que ha sido diseada para suministrar
seales de voz para ser utilizados en la evaluacin de sistemas automticos de
reconocimiento; se utilizaron tanto hablantes masculinos como femeninos de la regin
de dialecto de Nueva Inglaterra y se formaron los conjuntos de las diez vocales con
mayor frecuencia de ocurrencia. Las seales de voz en espaol se obtuvieron por medio
de la grabacin de dgitos aislados con una tarjeta de sonido de 16 bits a una frecuencia
de muestreo de 16000 Hz. Se utiliz un slo hablante masculino para la grabacin de
los fonemas y se formaron los conjuntos de diez repeticiones de cada dgito para hacer
un total de 100 ejemplos.
Para los experimentos relacionados con las vocales del ingles americano se
utilizo la Base de Datos TIMIT, de donde se extrajo un conjunto de muestras
(femeninas y masculinas) de cada directorio para examinar as las caractersticas de las
vocales involucradas en las oraciones grabadas y observar sus caractersticas.
Un diagrama que nos muestra los pasos a seguir para generar un reconocedor de
voz es el siguiente:
Clasificacin Sintaxis,
A/D Preproceso de Ortografa, Hola
Fonemas etc
oolaa
8.1 CARACTERIZACIN
s n' = s n ks n 1 .
[
s n' = 0.54 0.46 cos ( 2 ( n 1)
N 1
)]s n
S (w) = [s n ]
donde N es el tamao de la ventana en nmero de muestras. El espectro de potencia se
obtuvo en escala logartmica mediante un anlisis por banco de filtros en escala de Mel:
(
Mel ( f ) = 2595 log 10 1 + 700
f
).
Se tomaron en cuenta slo las principales vocales del ingls, que son
mencionadas en el captulo 1, y de las cuales enlistamos el valor de sus primeras tres
formantes en la Tabla 1 Seccin 1.3.1. Las vocales son: IY, IH, EH, AE, AH, AA, AO,
UH, UW y ER. Posteriormente, se llev acabo el Anlisis de las seales de voz con el
Modelo de Codificacin Lineal Predictivo LPC (Linear Predictive Coding), descrito en
el Capitulo 4, seccin 4.3.
donde:
Valor de nc
10
12
13
14
15
20
Valor de n Correspondiente a
(ms)
160 10
320 20
400 25
800 50
Valor de inc
0% equivalente a n
25% equivalente a floor(0.75*n)
30% equivalente a floor(0.70*n)
50% equivalente a floor(0.50*n)
Valor de w
M0e
M0ed (1. Derivada)
M0edD (2. Derivada)
Cantidad
Vocal de Ejemplos
AA 48
AE 56
AH 44
AO 60
EH 60
ER 38
IH 86
IY 115
UH 13
UW 8
Vocal 10 20 25 50
aa Completado Completado Completado Completado
ae Completado Completado Completado Completado
ah Completado Completado Completado Falto
ao Completado Completado Completado Falto
eh Completado Completado Completado Falto
er Completado Completado Completado Completado
ih Completado Completado Completado Falto
iy Completado Completado Completado Falto
uh Completado Completado Completado Falto
uw Completado Completado Completado Completado
Tabla 8.2.1.2 Resultados de la combinacin del uso del Melcepst para la longitud del frame n.
.
Tabla 8.2.1.3. Valores encontrados para las primeras 3 formantes de frecuencia en las vocales tpicas del ingles.
Cantidad
Vocal de Ejemplos
AA 38
AE 65
AH 24
AO 43
EH 41
ER 30
IH 68
IY 106
UH 4
UW 6
Vocal 10 20 25 50
aa Completado Completado Falto Falto
ae Completado Completado Completado Completado
ah Completado Completado Completado Falto
ao Completado Completado Completado Falto
eh Completado Completado Completado Falto
er Completado Completado Completado Completado
ih Completado Completado Completado Falto
iy Completado Completado Completado Falto
uh Completado Completado Completado Completado
uw Completado Completado Completado Falto
Tabla 8.2.2.2 Resultados de la combinacin del uso del Melcepst para la longitud del frame n.
Tabla 8.2.2.3 Valores encontrados para las primeras 2 formantes de frecuencia en las vocales tpicas del ingles.
Los datos obtenidos fueron utilizados en una red neuronal tipo perceptron cuyas
caractersticas se enlistan a continuacin:
Los resultados obtenidos por la red neuronal bajo las diferentes configuraciones se
muestran en las tablas 8.4.1, 8.4.2, 8.4.3 y 8.4.4. Las tablas muestran los porcentajes de
reconocimiento en los conjuntos de entrenamiento y prueba de las bases de datos en
ingls y espaol con diferente nmero de coeficientes en el vector de caractersticas
(coeficientes cepstrales). El traslape de los frames fue del 30% ya que con los dems
valores se presentaban problemas con la longitud de los mismos debido a que eran
mayores a la longitud de la seal.
Tabla 8.4.1 Porcentajes de reconocimiento para las configuraciones mfcc con primera derivada en ingls
No. Coeficientes % Entrenamiento % Prueba
10 72 68
12 85 80
15 95 92
20 83 79
Tabla 8.4.2 Porcentajes de reconocimiento para las configuraciones mfcc con primera y segunda derivadas en ingls
Tabla 8.4.3 Porcentajes de reconocimiento para las configuraciones mfcc con primera y segunda derivadas en espaol
Tabla 8.4.4 Porcentajes de reconocimiento para las configuraciones mfcc con primera y segunda derivadas en espaol
Tabla 8.4.5 Porcentaje de clasificacin correcta de fonemas con respecto al vector de coeficientes en ingls
Tabla 8.4.6 Porcentaje de clasificacin correcta de fonemas con respecto al vector de coeficientes en espaol
De la experimentacin y los resultados anteriores se puede deducir que
- la duracin de los frames que mayores porcentajes de clasificacin obtuvieron
fue 10ms
- el uso de la primera y segunda derivada aumentan significativamente los
porcentajes de clasificacin de los fonemas
- el rango ptimo del nmero de coeficientes del vector caracterstico va de 12 a
15
- el idioma espaol posee vocales ms distinguibles que el ingls desde el punto
de vista espectral
8.5 CONCLUSIONES
los valores para la clasificacin haciendo uso de la Red Neuronal Perceptron, tambin
merecen un punto de atencin para posteriores experimentos, ya que para llevar a cabo
nuestra tarea de clasificacin se hizo uso de una Red de 1 capa oculta. Sera interesante
ver que sucede si se hacen clasificaciones con redes de diferentes capas ocultas, o la
variacin de algunos otros parmetros que definen a la Red Neuronal. Ya que nuestra
tarea en estos experimentos, fue la de jugar, por as decirlo con los parmetros que
definen el preprocesamiento de los vectores acsticos y analizar as los resultados
arrojados en la etapa de clasificacin. Los resultados de las tablas 8.4.5 y 8.4.6., las
cuales muestran que no obstante, la mejor configuracin de vector para ambos casos
(espaol e ingls) es la que incluye las primeras y segundas derivadas, las cuales
proporcionan mayor informacin de las seales.
Apndice II: Anlisis espectral de las vocales en ingls.- de la misma forma se analizaron
las vocales ms utilizadas en el ingls, las cuales se obtuvieron de la base de datos TIMIT.
APNDICE I
Observaciones: Tal vez el valor obtenido en las grficas para el segundo formante no es
realmente para este formante si no para algn formante superior. De hecho en la teora
se habla de que el tercer formante aparece en los 2627 Hz y 2584 Hz. Adems
tampoco el primer formante coincide probablemente se deba a problemas en las
grabaciones.
Fonema /e/: anterior, media y sonora.
Archivo: seis1.dat
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida e2.
Fonema /i/: anterior, cerrada y sonora.
Archivo: siete10.dat
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida i3.
Fonema /o/: Posterior, media y sonora.
Archivo: dos9.dat
Observaciones: Tal vez el valor obtenido en las grficas para el segundo formante no es
realmente para este formante si no para algn formante superior. El primer formante es
el nico que se asemeja a los valores tericos.
Fonema /u/: Posterior, cerrada y sonora.
Archivo: cuatro8.dat
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida u1.
Grupo 2
Observaciones: Tal vez el valor obtenido en las grficas para el segundo formante no es
realmente para este formante si para algn formante superior. De hecho en la teora se
habla de que el tercer formante aparece en los 2627 Hz y 2584 Hz. Adems tampoco el
primer formante coincide probablemente se deba a problemas en las grabaciones.
Fonema /e/: anterior, media, sonora.
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida aa2.
Fonema /AE/:
Archivo: ae7.txt
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida aa3.
Fonema /AH/:
Archivo: ah24.txt
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida ah3.
Fonema /AO/:
Archivo: ao40.txt
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida ao2.
Fonema /EH/:
Archivo: eh22.txt
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida eh1.
Fonema /ER/:
Archivo: er17.txt
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida er1.
Fonema /IH/:
Archivo: ih10.txt
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida ih1.
Fonema /IY/:
Archivo: iy75.txt
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida iy2.
Fonema /UH/:
Archivo: uh2.txt
Observaciones: Los valores obtenidos son muy semejantes a los valores tericos para
nuestra vocal elegida uh1.
Fonema /UW/:
Archivo: uw4.txt
Observaciones: Los valores obtenidos aunque no son muy semejantes a los valores
tericos, los valores ms aproximados son de nuestra vocal elegida uw2.
ANLISIS ESPECTRAL DE LAS VOCALES EN INGLS
Grupo 1(Masculino)
FONEMA /AA/
F1 = 730 Hz
F2 = 1090 Hz
F3 = 2440 Hz
F1 = 687.5 Hz
F2 = 1500 Hz
F3 = 2437 Hz
F1 = 660 Hz
F2 = 1720 Hz
F3 = 2410 Hz
F1 = 625 Hz
F2 = 1687 Hz
F3 = 2750 Hz
La formante F3 se encuentra ms elevada, las otras dos son ms aproximadas.
FONEMA /AH/
F1 = 520 Hz
F2 = 1190 Hz
F3 = 2390 Hz
F1 = 625 Hz
F2 = 1562.5 Hz
F3 = 3000 Hz
Para esta vocal, ninguno de los archivos tomados tiene valores muy prximos a los que
se tienen registrados con anterioridad, de cualquier manera exponemos este ejemplo
para observar la variabilidad de valores en las muestras.
FONEMA /AO/
F1 = 570 Hz
F2 = 840 Hz
F3 = 2410 Hz
F1 = 562.5 Hz
F2 = 937.5 Hz
F3 = 2375 Hz
Para esta vocal, los valores de las 3 formantes son muy aproximados a los registrados en
experimentos anteriores.
FONEMA /EH/
F1 = 530 Hz
F2 = 1840 Hz
F3 = 2480 Hz
F1 = 562.5 Hz
F2 = 1875 Hz
F3 = 3937.5 Hz
El valor de F3 es muy elevado con respecto del valor caracterstico para esta vocal.
FONEMA /ER/
F1 = 490 Hz
F2 = 1350 Hz
F3 = 1690 Hz
F1 = 500 Hz
F2 = 1687.5 Hz
F3 = 4250 Hz
Los valores encontrados en las 3 primeras formantes de los datos elegidos para esta
vocal son muy altos difieren mucho de los valores caractersticos.
FONEMA /IH/
F1 = 390 Hz
F2 = 1990 Hz
F3 = 2550 Hz
F1 = 437.5 Hz
F2 = 2250 Hz
F3 = 3312.5 Hz
Los valores de F2 y F3 son muy elevados con respecto a los valores caractersticos.
FONEMA /IY/
F1 = 270 Hz
F2 = 2290 Hz
F3 = 3010 Hz
F1 = 375 Hz
F2 = 2437.5 Hz
F3 = 2875 Hz
Ninguno de los valores de las 3 formantes concuerdas con los valores caractersticos
para esta vocal, sin embargo, con aproximados.
FONEMA /UH/
F1 = 440 Hz
F2 = 1020 Hz
F3 = 2240 Hz
F1 = 437.5 Hz
F2 = 1687.5 Hz
F3 = 2687.5 Hz
El valor obtenido para F2 y F3 en este ejemplo son mayores a los valores caractersticos
de estas formantes, pero es el ms aproximado de los ejemplos.
FONEMA /UW/
F1 = 300 Hz
F2 = 870 Hz
F3 = 2240 Hz
F1 = 375 Hz
F2 = 1000 Hz
F3 = 2812.5 Hz
El valor obtenido para F2 y F3 en este ejemplo son mayores a los valores caractersticos
de estas formantes, pero es el ms aproximado de los ejemplos.
REFERENCIAS
[1] Rabiner l.R., Juang B. H. Fundamentals in Speech Recognition, Prentice Hall, 1993.
[2] Hermansky H. Perceptual Linear Predictive (PLP) Analysis de Speech. Jour. Acoust.
Soc. Am., 1190, 87(4), 1738-1752.
[3] Hermansky H., Morgan N. RASTA Processing of Speech. IEEE Trans. On Speech and
Audio Processing, 1994, 2(4), 578-589.
[4] Zue, S. Seneff, J. Glass. Speech Database Development: TIMIT and beyond. Speech
Communication, 1990. 351-356.
[5] Bengio Y., De Mori R., Flammia G., Kompe H. Phonetically Motivated Acoustic
Parameters for Continuos Speech Recognition Using Artificial Neural Networks, in
Eurospeech-91, Genova, Italy, 1991, 551-554.
[7] Esposito A., Ezin C.E., M. Ceccarelli, 1996. Preprocessing and Neural Classification of
the English stops [b,d,g,p,t,k]. ICSLP 96, ed.s T. Brunnel and W. Idsardi, 1996, vol.2, pp.
1249-1252.
[8] Esposito A., Izzo G., M. Marinaro. Preprocessing and Classification of English Stops,
Nasals, and Fricatives. IIASS internal report n. 19801, Via Pellegrino 19, 84019 Vietri sul
Mare (SA). Italy, 1998.
[9] Waibel A., Hanazawa, T., Hinton, G.E., Shikano, K., Lang, K.J. Phoneme Recognition
using Time Delay Neural Networks. Technical Report TR-1-0006, ATR Interpreting
Telephony research Laboratories, 1987.
[10] Waibel a., Sawai H., and Shikano K. Modularity and Scaling in Large Phonemic
Neural Networks. Technical Report TR-10034, ATR Interpreting Telephony Research
Laboratories, July, 1988.
[11] Waibel a., Hanazawa, T., Hinton, G.E., Shikano, K., Lang, K.J. Phoneme Recognition
Using Time Delay Neural Networks. IEEE Trnas. Acoust. Speech Signal Process, 1989,
37(3), 328-339.
[12] Lawrence S., Tsoi A. C., Back D., 1996. The Gamma MLP for speech phoneme
recognition. In Advances in Neural Information Processing Systems, Touretzky D., Mozer
M., and Hasselmo M. (editors), pp. 785-791, MIT press.
[13] Bernal Bermdez J., Bobadilla Sancho J., Gmez Vilda P. , 2000. Reconocimiento de
Voz y Fontica Acstica, Cap. 3 Fontica Acstica
[14] G. Green, Temporal aspects of audition, Ph. D. Thesis, Oxford, 1976.
[15] ______, Auditory model for para metrization of speech in real-life environment based
on re-integration of temporal derivative of auditory spectrum, U S WEST Advanced
Technologies Res. Rep., File Folder ST 04-01, Oct. 1990.
[16] H. Hermansky, N. Morgan, A. Bayya, and P. Kohn, Compensation for the effect of
the communication channel in auditory-like analysis of speech (RASTA-PLP), Proc,
EUROSPEECH91 (Genova), 1991, pp. 1367-1370.
[17] E. Zwicker, Die Grenzen der Hoerbarkeit der Amplitudenmodulation under der
Frequezmodulation cines Tones, Acustica, vol. 2 pp. 125-133. 1952.
[18] H. Hermansky, Member, IEEE, and N. Morgan, Senior Member, IEEE, RASTA
Processing of Speech, IEEE Transactions on Speech and Audio Processing, Vol. 2, No. 4.
October 1994.
[19]Esposito A., Ceglia R., 1999. Phonemes Clasification with Recurrent Neural Networks.
International Institute for Advanced Scientific Studies (IIASS) Vietri sul Mare (S.A.), Italy,
INFM, Salerno University