Вы находитесь на странице: 1из 9

10.

SNTESIS

Este bloque recibe como entrada la informacin lingstica del bloque Lingstico, es decir los valores concretos de los sonidos que hay que generar y los parmetros prosdicos asociados a los mismos. El objetivo de este bloque es generar sonidos que sean muy similares a la voz, presentando un alto grado de flexibilidad en cuanto a su capacidad para ser controlado, de modo que se pueda variar la realizacin de los sonidos. La informacin de entrada a este bloque incluye la secuencia de alfonos que hay que generar, y los datos de prosodia (duracin de los alfonos, contorno de frecuencia fundamental, y contorno de energa o amplitud). Como se explic en el capitulo anterior existen cuatro Sintetizadores de voz, stos son: Sintetizadores Articulatorios Sintetizadores por Formantes Sintetizadores derivados de las tcnicas de Prediccin Lineal (LPC). Sintetizadores por concatenacin de Forma de Onda

En nuestro trabajo nos vamos a centrar en el Sintetizador por Concatenacin debido a que ste ser el que utilizaremos para nuestro estudio, por lo que a continuacin se explicar con ms detalle el funcionamiento del mismo.

10.1 SNTESIS POR CONCATENACIN DE FORMA DE ONDA Estos sintetizadores concatenan segmentos pequeos de voz que son tomados de un hablante, los cuales se van concatenando para reconstruir una expresin arbitraria.

10.2 UNIDADES DE CONCATENACIN La unidad a concatenar debe ser un parmetro crtico para obtener como resultado una buena calidad de voz sintetizada y para lograr esto es necesario tener en cuenta la capacidad de memoria para almacenar las unidades pregrabadas y la calidad intersegmental posible, es decir que a mayor longitud de los segmentos, hay menos puntos de concatenacin y mayor calidad. Para la concatenacin se debe tener muy claro que los trozos grabados no pueden ser palabras debido a que cuando pronunciamos una frase se escucha
89

diferente a la de una secuencia de palabras grabadas que se pronuncian aisladamente, el ritmo, entonacin y la acentuacin son totalmente diferentes. Para el caso de los fonemas, no podemos concatenar fonemas debido a que pueden haber conflictos entre fonemas adyacentes que hacen que existan cambios de manifestaciones acsticas de dicho fonema dependiendo del contexto. La unidad ms satisfactoria de concatenacin es el difonema que es el trozo que va desde la mitad de un fonema a la mitad del siguiente fonema. Para el castellano se pueden considerar como 30 alfonos y el nmero mximo de difonemas como mas o menos de 302 = 900 (que muestreados a 16 KHz y 16 bits ocupan 5 Mbytes), pero no todos son utilizados. Adems de los difonemas se puede utilizar alfonos diferentes para poder distinguir las vocales acentuadas de las tonas y tambin se puede incluir trifonemas que son una agrupacin de tres fonemas.

10.3 Grabacin de la Voz Para la grabacin de los difonemas el locutor debe tener la capacidad de controlar y mantener constante la calidad de la voz con el fin de evitar cambios repentinos en medio de las slabas. Las unidades: fonema, difonema o trifonema deben ser extradas de algn contexto puesto que no son unidades que puedan ser grabadas aisladamente. Estos contextos pueden ser: En frase natural: En el que se graba frases diferentes que contienen al menos una unidad. En frase portadora: En el que se graba una frase, la misma que tiene una estructura fija donde se cambia solamente una palabra o un par de palabras que contienen la unidad a segmentar. En logatomos: Son palabras cortas que incluyen la unidad requerida y no tienen significado semntico. Este mtodo brinda un mayor rendimiento debido a que se simplifica mucho la tarea de seleccin de las unidades sin penalizar la naturalidad ms que en el caso de grabar palabras aisladas.

90

Despus de que se haya realizado la grabacin de la voz se realizan dos tareas:

a) Identificacin o Marcacin de los fonemas que componen la grabacin de forma manual o aplicando tcnicas de reconocimiento de habla para marcar automticamente las frases, palabras o logatomos grabados. b) Seleccin del punto de corte: Con el fin de reducir el efecto sonoro del habla cortada. Para dicha seleccin se puede: a. Escoger el punto de corte a travs de un algoritmo de seleccin ptimo que pretende minimizar la distancia entre el alfono de la unidad actual y el mismo alfono de la unidad siguiente. b. Mediante Mtodos de Suavizado durante la sntesis resolver la falta de continuidad formntica. 10.4 Modificaciones prosdicas En los sintetizadores por concatenacin forma de onda se debe ajustar la prosodia original de las unidades pregrabadas a la prosodia de la frase. Existen tres tipos de Modificaciones Prosdicas: 1. Modificacin de la frecuencia fundamental. 2. Modificacin de la duracin 3. Modificacin de la energa. El problema que estos mtodos presentan es el coste de modificar la prosodia de un segmento manteniendo un nivel de calidad alto. Existen algunos mtodos para las modificacin prosdica, el ms conocido y el ms utilizado debido a que se obtiene una mayor calidad es el algoritmo TD-PSOLA (PitchSynchronous OverLap-Add): modificacin de la prosodia por Recubrimiento y Adiccin. 10.5 EL ALGORITMO TD-PSOLA El objetivo de este algoritmo es conseguir una mejor calidad de sntesis a travs de la concatenacin de unidades digitalizadas pregrabadas, minimizando el ruido de codificacin y haciendo una adaptacin a travs de modificaciones en la Transformada de Fourier con el fin de que al realizar dichas modificaciones estas afecten en la frecuencia fundamental y en la duracin de las unidades.

91

Para la modificacin de la prosodia es importante recalcar que se debe realizar una modificacin en la energa de las unidades, esto se logra realizando una normalizacin de las energas de las unidades de la base de datos con respecto de un valor determinado, debido a que las unidades vienen de contextos diferentes, y a su vez van a tener energas diferentes. Al realizar esta normalizacin lo que se pretende es conseguir que al momento de concatenar las unidades, todas ellas puedan tener aproximadamente la misma energa y que los enunciados tengan tambin una intensidad sonora aproximadamente una intensidad uniforme y por ende una mejor calidad de voz. Este algoritmo tiene como ventaja que cuando se realizan todas estas modificaciones en el dominio temporal, la carga de clculo desaparece debido a la transformada de Fourier. El algoritmo TD-PSOLA realiza la modificacin de las caractersticas prosdicas de las unidades almacenadas en la base de datos mediante la repeticin en el tiempo de los periodos bsicos constituyentes de las mismas con una determinada armona, logrando as modificar la estructura de armnicos de las unidades originales sin que se distorsione el espectro fino de la seal. Estos periodos bsicos son enventanados de una forma sncrona con las marcas de pitch (estas marcas reciben el nombre de Marcas de Anlisis que son marcas colocadas sobre la seal que tratan de reflejar los momentos de cierre de la glotis) [] de tal forma que la longitud de las ventanas sea siempre mayor que un periodo fundamental, existiendo un solape entre periodos consecutivos. A continuacin para una mejor comprensin sobre las marcas de pitch se muestra una ventana en la que se puede ver una seal de voz con sus marcas de pitch:

Figura 19. Seal de voz con sus marcas de pitch [18].

92

Figura 20. Marcas de Pitch y periodos de la seal [18].

Despus de que se ha realizado el enventanado de la seal de anlisis, se procede a realizar el clculo del nmero de marcas de pitch que tendr la seal sintetizada utilizando la siguiente formula:

Figura 21. Clculo del nmero de marcas de pitch [18].

Donde T0 medio es el periodo medio del difonema a generar.

Para la posicin de las marcas de Pitch, se debe tener presente que el tono no es constante a lo largo de la unidad a generar, por lo tanto dichas marcas no se encuentran equiespaciadas a lo largo de la misma.

Para el primer periodo del difonema se parte de un valor inicial T0inicial y de un valor final T0final para el ltimo periodo. Una posibilidad que presenta la ventaja de conseguir una evolucin continua de la entonacin, es la de suponer que la curva de tono se comporta de forma lineal a lo largo de la unidad. De esta forma se puede determinar la posicin de las marcas de sntesis sin ms que calcular el escaln de la curva de sntesis. [18].

93

Utilizando la siguiente formula del escaln:

Figura 22. Clculo del escaln de la curva de Stntesis [18].

Figura 23. Posicin de las marcas de Sntesis [18].

Donde: To inicial primer periodo del difonema. To final ultimo periodo del difonema.

A continuacin lo que se realiza es una correlacin entre los periodos de la seal de anlisis y los periodos de la seal de sntesis, de cara a realizar la copia o la supresin de los periodos de la seal original del eje de anlisis al de sntesis. Debido a que cada uno de los nuevos periodos a generar tendrn una duracin diferente al del periodo original del que provienen se deber realizar una serie de transformaciones como los que se describen a continuacin: - Si el periodo a generar tiene una duracin inferior a la del periodo original se eliminara muestras del mismo. - En cambio si la duracin es mayor se completara las muestras del periodo original con ceros.

94

Figura 24. Correlacin entre los ejes de anlisis y sntesis [18].

Como ltimo paso para obtener la seal sintetizada se realiza un filtrado Overlapp-Add entre los periodos consecutivos y enventanados de la seal de sntesis. Al igual que el enventanado de anlisis, el enventanado en la sntesis, tiene un tamao de dos periodos bsicos de seal, y est centrado en las marcas de pitch de sntesis. Al realizar este proceso podemos conseguir una seal simtrica a partir de un espectro modificado de forma arbitraria.

10.6 LA BASE DE DATOS. Introduccin. La base de datos constituye un aspecto fundamental, en el sistema, puesto que al estar basado en el mtodo de sntesis de voz por concatenacin, esta deber contener el grupo de unidades digitalizadas pregrabadas, que posteriormente deber emplear el sintetizador. Una buena opcin de unidad a almacenar es el difonema (segmento que abarca desde la zona estable de un fonema hasta la zona estable del siguiente fonema), ya que se mantiene una buena relacin entre el tamao necesario para el almacenamiento de la base de datos de unidades, y el bajo ruido por concatenacin para generar las distintas secuencias. Ventajas de escoger el difonema como unidad de almacenamiento: x Es posible dotar al sistema de una flexibilidad, ya que si emplesemos palabras en la base de datos, sera necesario almacenar todas aquellas que pudiesen darse en una conversacin cualquiera (en todos sus posibles contextos y valores prosdicos), lo que claramente resultara ilgico desde el punto del almacenamiento, de los dispositivos mviles.
95

x El difonema, adems de necesitar un menor nmero de concatenaciones que el fonema (con lo que esto conlleva en cuanto a distorsin) elude el problema de la unin en las zonas finales de los fonemas, que tpicamente se caracterizan por su inestabilidad reducindose mucho la calidad de la sntesis al resultar muy patentes los efectos de coarticulacin entre unidades. En lo respectivo al tipo de informacin que almacenar asociada a las unidades, tenemos: x Duracin, x Tono medio. x Posicin de las marcas de tono. Adquisicin y marcado de la base de datos. Como primer paso para la construccin de la base de datos es la grabacin de las frases o prrafos que contengan los difonemas de la base de datos y a partir de estos con la utilizacin de herramientas se procedera a la obtencin de los difonemas y marcado de la informacin de cada uno, lo cual est fuera del alcance de esta investigacin, para la implementacin del primer avance del software se har uso de los fonemas, esto con la colaboracin de personal de la universidad que nos ayudara con el grabado de los prrafos. La Seleccin de Unidades Las unidades que se tomaran en nuestro proyecto sern los dfonos, pero al utilizar esta una nica instancia se podran presentar los siguientes problemas: Dificultar al tratar de conseguir una variacin del sonido para adaptarlo a una frase real. Ya que la prosodia de las palabras vara segn el contexto en que se encuentran es ms difcil conseguir el sonido correcto. Si la grabacin de la base de datos se da a travs de palabras o frases su contexto ser diferente al que nosotros queremos reproducir en un caso particular. Para lo cual se podra solucionar el problema introduciendo algunas variaciones de las palabras en la base de datos para as tener una mejor prosodia y poder fcilmente adaptarlo a las diferentes variaciones que se presenten en la vida real. De esta manera es posible eliminar el clculo y generacin de la prosodia en unidades dadas y simplemente se reducira a una concatenacin de sonidos. Este aspecto podra implementarse en nuestro proyecto siempre tomando en cuenta que la capacidad de almacenamiento es menor en un dispositivo celular de la misma manera el procesamiento seria mayor y podra influir en la calidad de procesado del conversor. Para esta implementacin se necesitara un
96

algoritmo para la seleccin de unidades ya que la informacin que tendramos del anlisis seria: el dfonos, la duracin, y su tono medio. Cada dfono de la base de datos tendra una serie de caractersticas para que se realice dicha seleccin. Estas caractersticas podran ser: 9 9 9 9 9 9 Nombre nico Frase original de la que fue extrada Duracin en milisegundos Los tonos iniciales y final de la unidad expresada en Hz. Nombre del Directorio en que se almacenaron La emocin que se proceda de la unidad.

Hay que tener en cuenta que se podra producir una distorsin en la sustitucin de las unidades objetivos por las unidades de la base de datos con diferente prosodia. Tambin una distorsin por la concatenacin ya que estos provienen de diferentes contextos fonticos. Para la eliminacin de la distorsin se podra realizar una comparacin de las caractersticas de las unidades especficas ya que tenemos una base de datos limitada se debera entonces escoger la unidad que ms se aproxime a nuestra situacin. El programa de alineamiento de marcas Las marcas son utilizadas para delimitar los fonemas de las frases, este proceso se podra hacer automticamente o manualmente por el usuario. Para el caso que se realice este proceso automticamente hay que tomar en cuenta que de todas maneras se tendrn que revisar los fonemas para verificar errores en los marcados. En el caso que se haga manualmente se podra hacer por dos personas las cuales situaran las marcas en las posiciones respectivas, luego de este proceso se deber alinear las marcas para encontrar la secuencia ptima.

97

Вам также может понравиться