la inteligencia artificial que tiene como objetivo permitir la comunicacin hablada entre seres humanos y computadoras. Un sistema de reconocimiento de voz es una herramienta computacional capaz de procesar la seal de voz emitida por el ser humano y reconocer la informacin contenida en sta, convirtindola en texto o emitiendo rdenes que actan sobre un proceso. En su desarrollo intervienen diversas disciplinas, tales como: la fisiologa, la acstica, el procesamiento de seales, la inteligencia artificial y la ciencia de la computacin.
Historia de las seales acsticas y de la computacin Digital vs. Analgica Historia de la Inteligencia Artificial Cerca de 300 a. C.: Aristteles descubri, de manera estructurada, un conjunto de reglas que describen una parte del funcionamiento de la mente. Al seguirlas paso a paso, producen conclusiones racionales a partir de premisas dadas. 250 a. C.: Ctesibio de Alejandra construy la primera mquina autocontrolada: un regulador del flujo de agua que actuaba modificando su comportamiento pero claramente sin razonamiento. 1315: Ramon Llull tuvo la idea de que el razonamiento poda ser efectuado de manera artificial. 1847: George Boole estableci la lgica proposicional, mucho ms completa que los silogismos de Aristteles, pero an algo poco potente. 1879: Gottlob Frege obtiene la Lgica de Primer Orden la cual cuenta con un mayor poder de expresin y es utilizada universalmente en la actualidad. 1903: Lee De Forest inventa el trodo. Aportaciones de Alan Turing Public un artculo sobre los "Nmeros Calculables", el que estableci las bases para todas las ciencias de computacin. Fij los lmites de las ciencias de la computacin porque demostr que no es posible resolver problemas con ningn tipo de computador. En este artculo introdujo el concepto de Mquina de Turing, una entidad matemtica abstracta que formaliz el concepto de algoritmo y result ser la precursora de las computadoras digitales. Poda conceptualmente leer instrucciones de una cinta de papel perforada y ejecutar todas las operaciones crticas de un computador. Se le considera el padre de la teora de la computabilidad, ya que demostr que existen problemas irresolubles que ningn computador es capaz de obtener solucin. Alan Turing y su equipo construyeron el primer computador electromecnico. Turing consolid el campo de la inteligencia artificial con su artculo Computing Machinery and Intelligence, en el que propuso una prueba concreta para determinar si una mquina era inteligente o no, su famosa Prueba de Turing por lo que se le considera el padre de la Inteligencia Artificial. Turing se convirti en el adalid que quienes defendan la posibilidad de emular el pensamiento humano a travs de la computacin y fue coautor del primer programa para jugar ajedrez. El resto de la historia En 1951 William Shockley inventa el transistor de unin. El invento hizo posible una nueva generacin de computadoras mucho ms rpidas y pequeas. En 1956 se dio el trmino "inteligencia artificial" en Dartmouth durante una conferencia. En 1980 la historia se repiti con el desafo japons de la quinta generacin, que dio lugar al auge de los sistemas expertos pero que no alcanz muchos de sus objetivos, por lo que este campo sufri una nueva interrupcin en los aos noventa. En 1987 Martin Fischles y Oscar Firschein describieron los atributos de un agente inteligente. En los 90s surgen los agentes inteligentes En la actualidad se est tan lejos de cumplir la famosa prueba de Turing como cuando se formul: Existir Inteligencia Artificial cuando no seamos capaces de distinguir entre un ser humano y un programa de computadora en una conversacin a ciegas.
Visin y audicin artificial: reconocimiento de patrones y sonidos Sntesis del sonido Vibraciones en cuerpos diversos Transmisin del sonido, resonadores y filtros Generacin natural de la voz La voz se produce en la laringe, que es una estructura con unos cartlagos flexibles que son el soporte de las cuerdas vocales. Estas cuerdas vocales estn formadas por unos msculos finos, que dispuestos en posicin horizontal forman una 'V'. Para producir un sonido en concreto, las cuerdas vocales se contraen o se alargan. Por otro lado, tambin se da un cambio en la presin del aire al salir a travs de los pliegues vocales. Todo ello produce una vibracin que al resonar por la laringe produce el sonido. Un sonido tiene tres cualidades bsicas: 1) el tono o altura 2) el volumen o intensidad 3) el timbre o resonancia Al espacio situado entre dos cuerdas vocales se llama glotis. Variando este espacio (la glotis) el cuerpo consigue dar al sonido las cualidades adecuadas de tono y volumen. La cualidad del timbre la determina la posicin resonadora de la garganta, boca y nariz, que son cavidades que modulan y amplifican el sonido de la laringe. Ruido de fondo Dinmica del proceso de la escucha de la voz El acto de audicin de un mensaje por parte de un interlocutor-receptor es la suma de la percepcin del sonido, su conversin en impulsos nerviosos trasmitidos al cerebro y la descodificacin lingstica del mensaje. Las ondas acsticas recorren los siguientes rganos del odo: Pabelln de la oreja. Odo externo. Tmpano. Cadena de huesecillos del odo medio. Trompa de Eustaquio. Ventana oval y ventana redonda (odo interno). Canales semicirculares. Caracol seo. Peasco. Transformada de Fourier El cepstrum de una seal es el resultado de calcular la transformada de Fourier del espectro de la seal estudiada en escala logartmica. El nombre cepstrum deriva de invertir las cuatro primeras letras de spectrum. El cepstrum es complejo y, por tanto, tiene su parte real y su parte imaginaria. Muchos de los sistemas de reconocimiento de voz actuales representan la seal de voz como un conjunto de coeficientes cepstrales calculados a una velocidad de trama fija. Adems, tambin se han utilizado las derivadas temporales de los coeficientes cepstrales.
Anlisis cepstral de la voz Normalmente se supone que la seal de voz es la salida de un sistema LTI; ej., es la circunvolucin de la entrada y de la respuesta de impulso. Si queremos caracterizar la seal en funcin de los parmetros de un modelo as, debemos pasar por el proceso de desconvolucin. El anlisis cepstral es un procedimiento utilizado para tal desconvolucin.
Sntesis de forma de onda Sntesis de voz Anlisis de voz por espectrogramas El espectrograma es el resultado de calcular el espectro de tramas enventanadas de una seal. Resulta una grfica tridimensional que representa la energa del contenido frecuencial de la seal segn va variando sta a lo largo del tiempo. Se usa, por ejemplo, para identificar sonidos fonticos y procesado del habla, para el radar/sonar. El instrumento que genera espectrogramas es llamado espectrmetro
HARDWARE Y COMPUTADORAS DIGITALES Para el reconocimiento de voz el hardware necesario no va ms all de un micrfono, una computadora y si es posible o cuando se est estudiando sobre l, una mezcladora con la cual podamos introducir una grabacin ms limpia.
Para la sntesis de voz, es necesaria una computadora desde la cual vamos a estar generando la sntesis y una bocina, para escucharla.
Sistemas de entorno y lenguaje asociado Los sistemas en los cuales se pueden accesar a este tipo de software para estudiar el reconocimiento de voz son: Linux UNIX WIN32
El lenguaje que se emplea es: C C++ C# Java
EL reconocimiento de voz y la inteligencia artificial
Es una parte esencial de la Inteligencia Artificial y tiene como finalidad la comunicacin hablada entre seres humanos y computadoras. El gran problema Analizar adecuadamente un conjunto de informaciones que proceden de diferentes fuentes de conocimiento (lxica, sintctica, semntica, pragmtica, acstica, fontica y fonolgica), teniendo en cuenta que pueden existir ambigedades, incertidumbres y errores para llegar a conseguir una interpretacin apropiada del mensaje acstico recibido.
Interface hombre maquina En celulares En otros dispositivos Esta plataforma es el software que permitir la comunicacin hombre-mquina.
Anlisis a la hora del reconocimiento de voz Caracterizacin de los Sistemas de Reconocimiento de Voz Los sistemas de reconocimiento automtico de voz se caracterizan teniendo en cuenta diferentes aspectos:
Palabra Aislada: el usuario habla palabras individuales (o frases) tomadas de un vocabulario determinado.
Palabras Conectadas: el usuario habla en forma fluida una sucesin de palabras pertenecientes a un vocabulario restringido (e.j. dgitos telefnicos).
Habla continua: el usuario habla fluidamente usando palabras de un vocabulario grande (usualmente ilimitado). 2. Tamao del vocabulario de reconocimiento Pequeo: capaz de reconocer hasta 100 palabras. Mediano: entre 100 y 1000 palabras. Grande: ms de 1000 palabras.
3. El conocimiento de los patrones de voz del usuario Sistemas dependientes del locutor: adaptados a locutores particulares. Sistemas independientes de locutor:trabajan con un poblacin de locutores grande, la mayora de los cuales son desconocidos para el sistema. Sistemas adaptables: se adaptan al locutor particular mientras el sistema est en uso. 3. El conocimiento de los patrones de voz del usuario Sistemas dependientes del locutor: adaptados a locutores particulares. Sistemas independientes de locutor: trabajan con un poblacin de locutores grande, la mayora de los cuales son desconocidos para el sistema. Sistemas adaptables: se adaptan al locutor particular mientras el sistema est en uso.
4. Grado de conocimiento acstico-lingstico usado por el sistema. Slo conocimiento acstico. No usan conocimiento lingstico. Integracin de conocimiento acstico y lingstico. El conocimiento lingstico est usualmente representado por restricciones sintcticas y semnticas sobre la salida del sistema de reconocimiento. Fuentes de Variabilidad de las Seales de Voz El reconocimiento automtico de voz es una tarea inherentemente difcil debido a la variabilidad de las seales de voz. Algunas fuentes de variabilidad incluyen:
Variabilidad en un locutor en mantener una pronunciacin consistente y en el uso de palabras y frases. Variabilidad entre locutores debido a diferencias fisiolgicos (e.j. diferente longitud del tracto vocal), acentos regionales, idiomas extranjeros, etc. Variabilidad entre transductores cuando se habla frente a diferentes micrfonos o aparatos telefnicos. Variabilidad introducida por el sistema de transmisin (redes de comunicacin telfonos celulares, etc.). Variabilidad en el ambiente, que incluyen conversaciones extraas y eventos acsticos de fondo, como ruidos, etc. Enfoques de Reconocimiento Automtico de Voz 1. Enfoque Acstico 1. Enfoque Acstico-Fontico --Fontico Consiste en detectar sonidos elementales y asignarles determinados rtulos. La base de este enfoque es la hiptesis de que en el lenguaje hablado existe un nmero finito de unidades fonticas distintas (fonemas) y que estas unidades pueden caracterizarse por un conjunto de propiedades acsticas que se manifiestan en la seal hablada en funcin del tiempo. Si bien las propiedades acsticas de los fonemas son altamente variables con el locutor y con los fonemas vecinos (co-articulacin de sonidos), se asume que las reglas que gobiernan la variabilidad son simples y pueden ser aprendidas fcilmente por el sistema de reconocimiento El reconocimiento consiste bsicamente de dos pasos: Primer paso: segmentacin y rotulado. La seal es dividida en regiones acsticas a las que son asignados uno o ms fonemas, resultando en una caracterizacin de la seal de voz mediante un reticulado de fonemas. Segundo paso: se trata de determinar una palabra (o conjunto de palabras) vlida a partir de la secuencia de fonemas rotulados en el primer paso. Se introducen en esta etapa restricciones lingsticas (vocabulario, sintaxis, y reglas semnticas) 2. Enfoque de Reconocimiento de patrones Consiste bsicamente en dos pasos:
* Primer Paso: entrenamiento de patrones *Segundo Paso: comparacin de patrones
En la etapa de comparacin de patrones se realiza una comparacin directa entre la seal de voz desconocida (a reconocer) y todos los posibles patrones aprendidos en la etapa de entrenamiento, de manera de determinar el mejor ajuste de acuerdo a algn criterio. Tipos de Sintesis de Voz y Aplicaciones
Principios bsicos de Sistemas de Conversin de Texto a Voz (TTS systems)
Principios bsicos de sistemas de conversin de texto a voz Proceso Lingstico-Prosdico: Anlisis del Texto Componentes: Principios bsicos de sistemas de conversin de texto a voz Proceso Lingstico-Prosdico: Anlisis Fontico Componentes: Principios bsicos de sistemas de conversin de texto a voz Proceso Lingstico-Prosdico: Anlisis Prosdico Componentes: ARQUITECTURAS NEURONALES
Caractersticas de las Redes Neuronales Existen cuatro elementos que caracterizan una red neuronal: su topologa, el mecanismo de aprendizaje, tipo de asociacin realizada ente la informacin de entrada y salida y la forma de representacin de estas informaciones.
Topologa de las Redes Neuronales Consiste en la organizacin de las neuronas en la red formando capas o agrupaciones de neuronas ms o menos alejadas de la entrada y salida de la red. Los parmetros fundamentales de la red son: el nmero de capas, el nmero de neuronas por capa, el grado de conectividad y el tipo de conexiones ente neuronas. En trminos topolgicos podemos clasificar las redes entre: redes de una sola capa y las redes con mltiples capas.
ARQUITECTURAS NEURONALES
Redes neuronales mono capas Corresponde con la red neuronal ms sencilla ya que se tiene una capa de neuronas que proyectan las entradas a una capa de neuronas de salida donde se realizan diferentes clculos.
Redes neuronales multicapa Es una generalizacin de la anterior existiendo un conjunto de capas intermedias entre la entrada y la salida (capas ocultas). Este tipo de red puede estar total o parcialmente conectada.
Redes neuronales no recurrentes En esta red la propagacin de las seales se produce en un sentido solamente, no existiendo la posibilidad de realimentaciones. Lgicamente estas estructuras no tienen memoria.
Redes neuronales recurrentes Esta red viene caracterizada por la existencia de lazos de realimentacin. Estos lazos pueden ser entre neuronas de diferentes capas, neuronas de la misma capa o, ms sencillamente, entre una misma neurona. Esta estructura estudia principalmente la dinmica de sistemas no lineales.
Redes con conexiones hacia delante (feedforward) Las seales travs de se propagan hacia adelante a travs de las capas de la red. No existen conexiones hacia atrs, y normalmente tampoco auto recurrentes, ni laterales, excepto los modelos de red propuestos por Kohonen. Las redes feedforward ms conocidas son: PERCEPTRON, ADALINE, MADALINE, LINEAR ADAPTATIVE MEMORY, DRIVE-REINFORCEMENT, BACKPROPAGATION. Todas ellas son tiles en aplicaciones de reconocimiento o clasificacin de patrones.
Redes con conexiones hacia adelante y hacia atrs (feedforward/feedback) En ste tipo de redes circula informacin tanto hacia delante como hacia atrs durante el funcionamiento de la red. Para que eso sea posible existen conexiones feedforward y feedback entre las neuronas. En general, suelen ser bicapas, existiendo por lo tanto dos conjuntos de pesos: los correspondientes a las conexiones feedforward de la primera capa ( capa de entrada) hacia la segunda (capa de salida) y los de las conexiones feedback de la segunda a la primera. Los valores de los pesos de estos tipos de conexiones no tienen porqu coincidir, siendo diferentes en la mayor parte de los casos. Algunas redes tienen un funcionamiento basado en lo que se denomina resonancia, de tal forma que las informaciones en la primera y segundas capas interacten entre s hasta que alcanzan un estado estable. Esto permite un mejor acceso a las informaciones almacenadas en la red. Los dos modelos de red de dos capas ms conocidos son la red ART(Adaptative Resonante Theory) y la red BAM (Bidirectional Associative Memory).
Redes con aprendizaje supervisado El proceso de aprendizaje se realiza mediante un entrenamiento controlado por un agente externo (supervisor o maestro) que determina la respuesta que debera generar la red a partir de una entrada determinada. El supervisor comprueba la salida de la red y en caso de que sta no coincida con la deseada, se proceder a modificar los pesos de las conexiones, con el fin de que la salida obtenida se aproxime a la deseada.
Redes con aprendizaje no supervisado Las redes con dicho aprendizaje no requieren de influencia externa para ajustar los pesos de las conexiones entre sus neuronas. La red no recibe ninguna informacin por parte del entorno que le indique si la salida generada en respuesta de una entrada es o no correcta. Suele decirse que estas redes son capaces de auto organizarse. Estas redes deben encontrar las caractersticas, regularidades, correlaciones o categoras que se pueden establecer entre los datos que se presentan en su entrada.
Algoritmo gentico Un algoritmo gentico es un mtodo de bsqueda que imita la teora de la evolucin biolgica de Darwin para la resolucin de problemas. Para ello, se parte de una poblacin inicial de la cual se seleccionan los individuos ms capacitados para luego reproducirlos y mutarlos para finalmente obtener la siguiente generacin de individuos que estarn ms adaptados que la anterior generacin.
Procesamiento de Seales Digitales Arquitectura de los Procesadores Digitales de Seales (PDS)
Los PDS son microprocesadores que comparten una arquitectura base optimizada. El procesamiento digital de la seal se basa en la manipulacin matemtica de las seales representadas en un formato digital, este anlisis matemtico conlleva un volumen de operaciones numricas muy elevado. Por esto, la arquitectura de los DSP debe responder a las necesidades de las operaciones que soportan, fundamentalmente: filtrado, convolucin, anlisis de espectros, correlacin, etc. La arquitectura fundamental de los PDS es la Harvard: Arquitectura Harvard
*La instruccin que con ms frecuencia realiza un PDS estndar es la multiplicacin y acumulacin. sta debe ser realizada con eficiencia, y para ello debera ser completada en un ciclo de instruccin. Esto implica que dos valores deben ser ledos desde memoria y (dependiendo de la organizacin) un valor debe ser escrito, o dos o ms registros de direcciones deben ser actualizados, en ese ciclo. Por lo tanto, una longitud grande en la memoria es tan importante como la operacin de multiplicacinacumulacin.
*Varios buses y memorias incluidas en el chip son utilizadas de forma que lecturas y escrituras a diferentes unidades de memoria pueden ser hechas a la vez. Dos memorias son utilizadas en la arquitectura Harvard clsica. Una de ellas es utilizada exclusivamente para datos, mientras que la otra es utilizada para instrucciones. Esta arquitectura alcanza un alto grado de concurrencia (lecturas y escrituras simultneas).
Ejemplo de un PDS
Programacin de un PDS
Un PDS se puede programar tanto en ensamblador como en C. Cada familia de PDS tienen su propio lenguaje ensamblador y sus propias herramientas suministradas por el fabricante. Gracias a la colaboracin entre fabricantes, existen lenguajes de ms alto nivel (y por lo tanto, ms sencillos y rpidos de usar) que incorporan la capacidad de programar los PDS, en general pasando por un precompilado automtico en C. Son los casos de LabVIEW y Matlab.
Ejemplo de un filtro con script m compatible con LabVIEW MathScript y con Matlab
En el siguiente ejemplo se presenta la programacin de un filtro digital en script m. El parmetro "entrada" es un valor que hay que darle al programa. Los coeficientes del filtro estn en los arrays den y num. Todas las operaciones son sumas (o restas), multiplicaciones y almacenamiento en memoria (variable w). w=[0 0 0 0 0]; y=zeros(1,length(entrada)); for i=1:length(entrada) w(5)=entrada(i)-den(2)*w(4)-den(3)*w(3)-den(4)*w(2)-den(5)*w(1); y(i)= num(1)*w(5)+num(2)*w(4)+num(3)*w(3)+num(4)*w(2); w(1)=w(2); w(2)=w(3); w(3)=w(4); w(4)=w(5); end; Filtro digital usando un PDS Detector de tono
Es usado para supervisar una seal de audio para un tono de frecuencia especfica o mltiples tonos. A pesar que puede detectar cualquier frecuencia de audio, por lo general, se utiliza para detectar los tonos de muy baja frecuencia que no pueden ser odos por los seres humanos. Los usos tpicos incluyen la difusin de programas de radio en la red (activar automticamente pausas publicitarias), sistemas de control (controlar la eliminacin de sistemas en un sistema de audio), interruptores de audio remotos (cambiar las seales de encendido y apagado usando tonos), transmisin sub-banda de informacin (transmitir informacin a travs de una transmisin de audio) y muchos otros usos relacionados.
Evolucin de la sntesis de voz.
La sntesis de voz es la produccin artificial de habla humana. Un sistema usado con este propsito recibe el nombre de sintetizador de habla y puede llevarse a cabo en software o en hardware. Un sistema texto a voz se compone de dos partes: un front-end y un back-end. A grandes rasgos, el front- end toma como entrada texto y produce una representacin lingstica fontica. El back-end toma como entrada la representacin lingstica simblica y produce una forma de onda sintetizada. En los aos 30, los laboratorios Bell Labs desarrollaron el VOCODER, un analizador y sintetizador del habla operado por teclado que era claramente inteligible. Homer Dudley refin este dispositivo y creo VODER. Los primeros sintetizadores de voz sonaban muy robticos y eran a menudo inteligibles a duras penas. Sin embargo, la calidad del habla sintetizada ha mejorado en gran medida, y el resultado de los sistemas de sntesis contemporneos es, en ocasiones, indistinguible del habla humana real. Codificador de voz Es un analizador y sintetizador de voz. La voz humana consiste en sonidos generados por la apertura y cierre de la glotis (cuerdas vocales), lo que produce una onda peridica con muchos sonidos armnicos. Este sonido bsico es entonces filtrado por la nariz y la garganta (un complicado sistema resonante conocido como el tracto vocal) de forma controlada, creando la amplia variedad de timbres del habla. Hay otro conjunto de sonidos, conocidos como sordos, que no son generados por la vibracin de las cuerdas vocales. El vocoder examina el habla encontrando su onda bsica, que es la frecuencia fundamental, y midiendo cmo cambian en el tiempo las caractersticas espectrales, es decir los formantes, que son bandas de frecuencia donde se concentra la mayor parte de la energa sonora de un sonido, grabando el habla. Esto da como resultado una serie de nmeros representando esas frecuencias modificadas en un tiempo particular a medida que el usuario habla. Al hacer esto, el vocoder reduce en gran medida la cantidad de informacin necesaria para almacenar el habla. Para recrear el habla, el vocoder simplemente revierte el proceso, creando la frecuencia fundamental en un oscilador electrnico y pasando su resultado por una serie de filtros basado en la secuencia original de smbolos.
Vocoders analgicos Crea sonidos mediante manipulacin directa de corrientes elctricas. Vocoders digitales Crea sonidos mediante la manipulacin de una onda FM digital. Inteligencia artificial en la sntesis de voz El reconocimiento automtico del habla (RAH) o reconocimiento automtico de voz es una disciplina de la inteligencia artificial que tiene como objetivo permitir la comunicacin hablada entre seres humanos y computadoras. Es una herramienta computacional capaz de procesar la seal de voz emitida por el ser humano y reconocer la informacin contenida en sta, convirtindola en texto o emitiendo rdenes que actan sobre un proceso.
Anlisis espectral de voz CEPSTRUM. El cepstrum c(n) de la seal de voz se define como la transformada inversa de Fourier del logaritmo de su espectro localizado S(co), es decir, c(n) = F'1 {In S(co)} El trmino cepstrum es indicativo de haber realizado una transformacin inversa del spectrum (espectro). La variable independiente del cepstrum se denomina cuefrencia, trmino formado a partir de la palabra frecuencia, y tiene carcter temporal. La principal caracterstica del cepstrum es que permite separar del espectro de la seal de voz la estructura fina y los formantes.
Desarrollo de un proyecto de reconocimiento de voz Instrumento Musical
Un instrumento musical es un objeto compuesto por la combinacin de uno o ms sistemas resonantes y los medios para su vibracin, construido con el fin de reproducir sonido en uno o ms tonos que puedan ser combinados por un intrprete para producir msica. Erich von Hornbostel y Curt Sachs publicaron en 1914 una clasificacin de los instrumentos musicales que es ampliamente seguida en la actualidad. Establecieron cuatro clases o categoras principales de instrumentos musicales (a la que aadieron una quinta posteriormente), que a su vez se dividen en grupos y subgrupos, segn el modo de generacin del sonido:
Idifonos Membranfonos Aeronfonos Cordfonos
Instrumentos idifonos Son aquellos instrumentos en los que el sonido procede de un cuerpo slido y es generado por vibracin del instrumento mismo mediante percusin, frotacin o pulsacin, como en el caso de las claves, xilfono, campana.
Instrumentos membranfonos Los membranfonos son aquellos en los cuales el sonido es generado por la vibracin de una membrana por percusin o frotacin, como es el caso del timbal, tambor, conga.
Instrumentos aerfonos Son los llamados instrumentos de viento, donde el sonido es generado por la vibracin del aire, a causa del roce con una lengeta, labios o cuerdas vocales, como es en el caso de la flauta, trompeta, saxofn.
Instrumentos cordfonos Son los llamados instrumentos de cuerda, donde el sonido es generado por la vibracin de una cuerda mediante percusin, frotacin o pinzamiento, como en el caso del arpa, guitarra, violn, piano.
Sntesis de voz
La sntesis de voz es la produccin artificial de habla humana. Un sistema usado con este propsito recibe el nombre de sintetizador de habla y puede llevarse a cabo en software o en hardware. La sntesis de voz se llama a menudo en ingls text-to-speech (TTS), en referencia a su capacidad de convertir texto en habla. Un sistema de sntesis de voz se compone de dos etapas: la primera toma una entrada como texto y produce una representacin lingstica fontica, la segunda toma como entrada la representacin lingstica simblica y produce una forma de onda sintetizada.
La primera etapa se encarga de dos tareas principales. En primer lugar toma el texto y convierte partes problemticas como nmeros y abreviaturas en palabras equivalentes. Este proceso se llama a menudo normalizacin de texto o preprocesado. Entonces asigna una transcripcin fontica a cada palabra, y divide y marca el texto en varias unidades prosdicas, como frases y oraciones. El proceso de asignar transcripciones fonticas a las palabras recibe el nombre de conversin texto a fonema (TTP en ingls) o grafema a fonema (GTP en ingls). La combinacin de transcripciones fonticas e informacin prosdica constituye la representacin lingstica fontica.
La segunda etapa, toma la representacin lingstica simblica y la convierte en sonido, esta segunda etapa suele ser llamada sintetizador.
Aplicacin de la sntesis de la voz a la msica
Dentro del campo de la creacin musical encontramos software que mediante este sistema genera voces similares a la de las humanas capaces de interpretar canciones con gran realismo. Un ejemplo actual es el caso del sistema Vocaloid, desarrollado por Yamaha Corporation, este sistema es capaz de reproducir voces humanas con una naturalidad y una inteligibilidad muy altas utilizando muestras de voz. Para ello el usuario debe indicar la letra de las canciones y al entonacin con la que desea que sean cantadas. Tambin es posible modificar otros parmetros de la voz.
Vocoder Un vocoder (nombre derivado de voice coder, codificador de voz) es un analizador y sintetizador de voz. Para su uso como sintetizador de voz el vocoder examina el habla encontrando su onda bsica, que es la frecuencia fundamental, y midiendo cmo cambian las caractersticas espectrales con el tiempo grabando el habla.
Esto da como resultado una serie de nmeros representando esas frecuencias modificadas en un tiempo particular a medida que el usuario habla. Al hacer esto, el vocoder reduce en gran medida la cantidad de informacin necesaria para almacenar el habla. Para recrear el habla, el vocoder simplemente revierte el proceso, creando la frecuencia fundamental en un oscilador electrnico y pasando su resultado por una serie de filtros basado en la secuencia original de smbolos. Para las aplicaciones musicales, una fuente de sonidos musicales se usa como portadora, en lugar de extraer la frecuencia fundamental.
Reconocimiento de partituras musicales
Para el reconocimiento de partituras por parte de un computador se utilizan los sistemas OMR (Optical Music Recognition) que son una aplicacin del reconocimiento de caracteres (OCR o Optical Character Recognition) a partir de imgenes digitales. Utilizando estos sistemas podemos, a partir de una partitura escrita (a mano o por ordenador) en papel, escanearla y obtener un archivo que contenga informacin sobre esa partitura, en formatos como MIDI, NIFF o XML, lo que permite despus reproducirlo en un ordenador, cambiar la afinacin a la que se debe tocar la cancin automticamente o realizar hacer cualquier otra modificacin con facilidad gracias a programas especiales para la edicin de partituras o simplemente almacenarlas e imprimirlas en cualquier momento.
Los sistemas OMR suelen seguir cuatro etapas en el proceso de reconocimiento, estas son: Identificacin del pentagrama. En esta etapa se identifica la posicin de las lneas del pentagrama y se generalmente se eliminan, dejando nicamente los smbolos musicales superpuestos a estas.
Localizacin de objetos musicales. Se localizan los smbolos que se encuentran sobre el pentagrama.
Identificacin de smbolos. Se determina de que tipo es cada smbolo.
Paso a notacin musical. Por ltimo se determina la relacin existente entre los smbolos y se almacena esta informacin de manera que los programas como secuenciadores o editores de msica puedan reconocer, en forma de ficheros como los mencionados anteriormente.