Reconocimiento de Voz

Qu es?
El reconocimiento de voz es una disciplina de

la inteligencia artificial que tiene como
objetivo permitir la comunicacin hablada
entre seres humanos y computadoras.
Un sistema de reconocimiento de voz es una herramienta computacional
capaz de procesar la seal de voz emitida por el ser humano y reconocer la
informacin contenida en sta, convirtindola en texto o emitiendo rdenes
que actan sobre un proceso. En su desarrollo intervienen diversas
disciplinas, tales como: la fisiologa, la acstica, el procesamiento de
seales, la inteligencia artificial y la ciencia de la computacin.

Historia de las seales acsticas y de la
computacin
Digital vs. Analgica
Historia de la Inteligencia Artificial
Cerca de 300 a. C.: Aristteles descubri, de manera estructurada, un
conjunto de reglas que describen una parte del funcionamiento de la
mente. Al seguirlas paso a paso, producen conclusiones racionales a partir
de premisas dadas.
250 a. C.: Ctesibio de Alejandra construy la primera mquina
autocontrolada: un regulador del flujo de agua que actuaba modificando
su comportamiento pero claramente sin razonamiento.
1315: Ramon Llull tuvo la idea de que el razonamiento poda ser
efectuado de manera artificial.
1847: George Boole estableci la lgica proposicional, mucho ms
completa que los silogismos de Aristteles, pero an algo poco potente.
1879: Gottlob Frege obtiene la Lgica de Primer Orden la cual cuenta con
un mayor poder de expresin y es utilizada universalmente en la
actualidad.
1903: Lee De Forest inventa el trodo.
Aportaciones de Alan Turing
Public un artculo sobre los "Nmeros Calculables", el que estableci las bases para todas
las ciencias de computacin. Fij los lmites de las ciencias de la computacin porque
demostr que no es posible resolver problemas con ningn tipo de computador.
En este artculo introdujo el concepto de Mquina de Turing, una entidad matemtica
abstracta que formaliz el concepto de algoritmo y result ser la precursora de las
computadoras digitales. Poda conceptualmente leer instrucciones de una cinta de papel
perforada y ejecutar todas las operaciones crticas de un computador.
Se le considera el padre de la teora de la computabilidad, ya que demostr que existen
problemas irresolubles que ningn computador es capaz de obtener solucin.
Alan Turing y su equipo construyeron el primer computador electromecnico.
Turing consolid el campo de la inteligencia artificial con su artculo Computing Machinery
and Intelligence, en el que propuso una prueba concreta para determinar si una mquina
era inteligente o no, su famosa Prueba de Turing por lo que se le considera el padre de la
Inteligencia Artificial.
Turing se convirti en el adalid que quienes defendan la posibilidad de emular el
pensamiento humano a travs de la computacin y fue coautor del primer programa para
jugar ajedrez.
El resto de la historia
En 1951 William Shockley inventa el transistor de unin. El invento hizo
posible una nueva generacin de computadoras mucho ms rpidas y
pequeas.
En 1956 se dio el trmino "inteligencia artificial" en Dartmouth durante
una conferencia.
En 1980 la historia se repiti con el desafo japons de la quinta
generacin, que dio lugar al auge de los sistemas expertos pero que no
alcanz muchos de sus objetivos, por lo que este campo sufri una nueva
interrupcin en los aos noventa.
En 1987 Martin Fischles y Oscar Firschein describieron los atributos de un
agente inteligente.
En los 90s surgen los agentes inteligentes
En la actualidad se est tan lejos de cumplir la famosa prueba de
Turing como cuando se formul: Existir Inteligencia Artificial cuando no
seamos capaces de distinguir entre un ser humano y un programa de
computadora en una conversacin a ciegas.

Visin y audicin artificial:
reconocimiento de patrones y sonidos
Sntesis del sonido
Vibraciones en cuerpos diversos
Transmisin del sonido, resonadores y
filtros
Generacin natural de la voz
La voz se produce en la laringe, que es una estructura con
unos cartlagos flexibles que son el soporte de las cuerdas
vocales. Estas cuerdas vocales estn formadas por unos
msculos finos, que dispuestos en posicin horizontal
forman una 'V'.
Para producir un sonido en concreto, las cuerdas vocales se
contraen o se alargan. Por otro lado, tambin se da un
cambio en la presin del aire al salir a travs de los pliegues
vocales. Todo ello produce una vibracin que al resonar por
la laringe produce el sonido.
Un sonido tiene tres cualidades bsicas:
1) el tono o altura
2) el volumen o intensidad
3) el timbre o resonancia
Al espacio situado entre dos cuerdas vocales se llama
glotis. Variando este espacio (la glotis) el cuerpo consigue
dar al sonido las cualidades adecuadas de tono y volumen.
La cualidad del timbre la determina la posicin resonadora
de la garganta, boca y nariz, que son cavidades que
modulan y amplifican el sonido de la laringe.
Ruido de fondo
Dinmica del proceso de la escucha de
la voz
El acto de audicin de un mensaje por
parte de un interlocutor-receptor es la
suma de la percepcin del sonido, su
conversin en impulsos nerviosos
trasmitidos al cerebro y la descodificacin
lingstica del mensaje.
Las ondas acsticas recorren los siguientes
rganos del odo:
Pabelln de la oreja. Odo externo.
Tmpano.
Cadena de huesecillos del odo medio.
Trompa de Eustaquio.
Ventana oval y ventana redonda (odo
interno).
Canales semicirculares.
Caracol seo.
Peasco.
Transformada de Fourier
El cepstrum de una seal es el resultado de calcular la transformada de Fourier del
espectro de la seal estudiada en escala logartmica. El nombre cepstrum deriva de
invertir las cuatro primeras letras de spectrum. El cepstrum es complejo y, por tanto,
tiene su parte real y su parte imaginaria.
Muchos de los sistemas de reconocimiento de voz actuales representan la seal de
voz como un conjunto de coeficientes cepstrales calculados a una velocidad de trama
fija. Adems, tambin se han utilizado las derivadas temporales de los coeficientes
cepstrales.

Anlisis cepstral de la voz
Normalmente se supone que la seal de voz
es la salida de un sistema LTI; ej., es la
circunvolucin de la entrada y de la respuesta
de impulso.
Si queremos caracterizar la seal en funcin
de los parmetros de un modelo as, debemos
pasar por el proceso de desconvolucin.
El anlisis cepstral es un procedimiento
utilizado para tal desconvolucin.

Sntesis de forma de onda
Sntesis de voz
Anlisis de voz por espectrogramas
El espectrograma es el resultado de calcular el espectro de tramas
enventanadas de una seal. Resulta una grfica tridimensional que
representa la energa del contenido frecuencial de la seal segn va
variando sta a lo largo del tiempo.
Se usa, por ejemplo, para identificar sonidos fonticos y procesado
del habla, para el radar/sonar. El instrumento que genera
espectrogramas es llamado espectrmetro

HARDWARE Y COMPUTADORAS
DIGITALES
Para el reconocimiento de voz el hardware
necesario no va ms all de un micrfono, una
computadora y si es posible o cuando se est
estudiando sobre l, una mezcladora con la
cual podamos introducir una grabacin ms
limpia.

Para la sntesis de voz, es necesaria una
computadora desde la cual vamos a estar
generando la sntesis y una bocina, para
escucharla.

Sistemas de entorno y lenguaje
asociado
Los sistemas en los cuales se pueden accesar a
este tipo de software para estudiar el
reconocimiento de voz son:
Linux
UNIX
WIN32

El lenguaje que se emplea es:
C
C++
C#
Java

EL reconocimiento de voz y la
inteligencia artificial

Es una parte esencial de la Inteligencia
Artificial y tiene como finalidad la
comunicacin hablada entre seres humanos y
computadoras.
El gran problema
Analizar adecuadamente un conjunto de
informaciones que proceden de diferentes
fuentes de conocimiento (lxica, sintctica,
semntica, pragmtica, acstica, fontica y
fonolgica), teniendo en cuenta que pueden
existir ambigedades, incertidumbres y
errores para llegar a conseguir una
interpretacin apropiada del mensaje acstico
recibido.

Interface hombre maquina
En celulares
En otros dispositivos
Esta plataforma es el software que permitir la
comunicacin hombre-mquina.

Anlisis a la hora del reconocimiento
de voz
Caracterizacin de los Sistemas de
Reconocimiento de Voz
Los sistemas de reconocimiento automtico de voz se
caracterizan teniendo en cuenta diferentes aspectos:

Palabra Aislada: el usuario habla palabras individuales (o
frases) tomadas de un vocabulario determinado.

Palabras Conectadas: el usuario habla en forma fluida una
sucesin de palabras pertenecientes a un vocabulario
restringido (e.j. dgitos telefnicos).

Habla continua: el usuario habla fluidamente usando palabras
de un vocabulario grande (usualmente ilimitado).
2. Tamao del vocabulario de reconocimiento
Pequeo: capaz de reconocer hasta 100 palabras.
Mediano: entre 100 y 1000 palabras.
Grande: ms de 1000 palabras.

3. El conocimiento de los patrones de voz del
usuario
Sistemas dependientes del locutor: adaptados a
locutores
particulares.
Sistemas independientes de locutor:trabajan con un
poblacin de locutores grande, la mayora de los cuales
son desconocidos para el sistema.
Sistemas adaptables: se adaptan al locutor particular
mientras el sistema est en uso.
3. El conocimiento de los patrones de voz del usuario
Sistemas dependientes del locutor: adaptados a locutores
particulares.
Sistemas independientes de locutor: trabajan con un poblacin de
locutores grande, la mayora de los cuales son desconocidos para el
sistema.
Sistemas adaptables: se adaptan al locutor particular mientras el
sistema est en uso.

4. Grado de conocimiento acstico-lingstico usado
por el sistema.
Slo conocimiento acstico. No usan conocimiento lingstico.
Integracin de conocimiento acstico y lingstico. El conocimiento
lingstico est usualmente representado por restricciones
sintcticas y semnticas sobre la salida del sistema de
reconocimiento.
Fuentes de Variabilidad de las Seales
de Voz
El reconocimiento automtico de voz es una tarea inherentemente
difcil debido a la variabilidad de las seales de voz. Algunas
fuentes de variabilidad incluyen:

Variabilidad en un locutor en mantener una pronunciacin consistente y
en el uso de palabras y frases.
Variabilidad entre locutores debido a diferencias fisiolgicos (e.j. diferente
longitud del tracto vocal), acentos regionales, idiomas extranjeros, etc.
Variabilidad entre transductores cuando se habla frente a diferentes
micrfonos o aparatos telefnicos.
Variabilidad introducida por el sistema de transmisin (redes de
comunicacin telfonos celulares, etc.).
Variabilidad en el ambiente, que incluyen conversaciones extraas y
eventos acsticos de fondo, como ruidos, etc.
Enfoques de Reconocimiento
Automtico de Voz
1. Enfoque Acstico 1. Enfoque
Acstico-Fontico --Fontico
Consiste en detectar sonidos elementales y asignarles
determinados rtulos. La base de este enfoque es la hiptesis
de que en el lenguaje hablado existe un nmero finito de
unidades fonticas distintas (fonemas) y que estas unidades
pueden caracterizarse por un conjunto de propiedades
acsticas que se manifiestan en la seal hablada en funcin
del tiempo.
Si bien las propiedades acsticas de los fonemas son
altamente variables con el locutor y con los fonemas vecinos
(co-articulacin de sonidos), se asume que las reglas que
gobiernan la variabilidad son simples y pueden ser aprendidas
fcilmente por el sistema de reconocimiento
El reconocimiento consiste
bsicamente de dos pasos:
Primer paso: segmentacin y rotulado. La seal
es dividida en regiones acsticas a las que son
asignados uno o ms fonemas, resultando en una
caracterizacin de la seal de voz mediante un
reticulado de fonemas.
Segundo paso: se trata de determinar una
palabra (o conjunto de palabras) vlida a partir de
la secuencia de fonemas rotulados en el primer
paso. Se introducen en esta etapa restricciones
lingsticas (vocabulario, sintaxis, y reglas
semnticas)
2. Enfoque de Reconocimiento de
patrones
Consiste bsicamente en dos pasos:

* Primer Paso: entrenamiento de patrones
*Segundo Paso: comparacin de patrones

En la etapa de comparacin de patrones se realiza una
comparacin directa entre la seal de voz desconocida (a
reconocer) y todos los posibles patrones aprendidos en la
etapa de entrenamiento, de manera de determinar el
mejor ajuste de acuerdo a algn criterio.
Tipos de Sintesis de Voz y Aplicaciones

Principios bsicos de Sistemas de
Conversin de Texto a Voz (TTS
systems)

Principios bsicos de sistemas de
conversin de texto a voz
Proceso Lingstico-Prosdico: Anlisis del
Texto
Componentes:
Principios bsicos de sistemas de conversin
de texto a voz
Proceso Lingstico-Prosdico: Anlisis
Fontico
Componentes:
Principios bsicos de sistemas de conversin
de texto a voz
Proceso Lingstico-Prosdico: Anlisis
Prosdico
Componentes:
ARQUITECTURAS NEURONALES

Caractersticas de las Redes Neuronales
Existen cuatro elementos que caracterizan una red
neuronal: su topologa, el mecanismo de aprendizaje,
tipo de asociacin realizada ente la informacin de
entrada y salida y la forma de representacin de estas
informaciones.

Topologa de las Redes Neuronales
Consiste en la organizacin de las neuronas en la red
formando capas o agrupaciones de neuronas ms o
menos alejadas de la entrada y salida de la red. Los
parmetros fundamentales de la red son: el nmero de
capas, el nmero de neuronas por capa, el grado de
conectividad y el tipo de conexiones ente neuronas.
En trminos topolgicos podemos clasificar las redes
entre: redes de una sola capa y las redes con mltiples
capas.

ARQUITECTURAS NEURONALES

Redes neuronales mono capas
Corresponde con la red neuronal ms sencilla ya que se
tiene una capa de neuronas que proyectan las entradas
a una capa de neuronas de salida donde se realizan
diferentes clculos.

Redes neuronales multicapa
Es una generalizacin de la anterior existiendo un
conjunto de capas intermedias entre la entrada y la
salida (capas ocultas). Este tipo de red puede estar total
o parcialmente conectada.

Redes neuronales no recurrentes
En esta red la propagacin de las seales se produce en
un sentido solamente, no existiendo la posibilidad de
realimentaciones. Lgicamente estas estructuras no
tienen memoria.

Redes neuronales recurrentes
Esta red viene caracterizada por la existencia de lazos
de realimentacin. Estos lazos pueden ser entre
neuronas de diferentes capas, neuronas de la misma
capa o, ms sencillamente, entre una misma neurona.
Esta estructura estudia principalmente la dinmica de
sistemas no lineales.

Redes con conexiones hacia delante (feedforward)
Las seales travs de se propagan hacia adelante a
travs de las capas de la red. No existen conexiones
hacia atrs, y normalmente tampoco auto recurrentes,
ni laterales, excepto los modelos de red propuestos por
Kohonen.
Las redes feedforward ms conocidas son:
PERCEPTRON, ADALINE, MADALINE, LINEAR
ADAPTATIVE MEMORY, DRIVE-REINFORCEMENT,
BACKPROPAGATION. Todas ellas son tiles en
aplicaciones de reconocimiento o clasificacin de
patrones.

Redes con conexiones hacia adelante y hacia atrs
(feedforward/feedback)
En ste tipo de redes circula informacin tanto hacia delante
como hacia atrs durante el funcionamiento de la red. Para que
eso sea posible existen conexiones feedforward y feedback entre
las neuronas.
En general, suelen ser bicapas, existiendo por lo tanto dos
conjuntos de pesos: los correspondientes a las conexiones
feedforward de la primera capa ( capa de entrada) hacia la
segunda (capa de salida) y los de las conexiones feedback de la
segunda a la primera. Los valores de los pesos de estos tipos de
conexiones no tienen porqu coincidir, siendo diferentes en la
mayor parte de los casos.
Algunas redes tienen un funcionamiento basado en lo
que se denomina resonancia, de tal forma que las
informaciones en la primera y segundas capas
interacten entre s hasta que alcanzan un estado
estable. Esto permite un mejor acceso a las
informaciones almacenadas en la red.
Los dos modelos de red de dos capas ms conocidos
son la red ART(Adaptative Resonante Theory) y la red
BAM (Bidirectional Associative Memory).

Redes con aprendizaje supervisado
El proceso de aprendizaje se realiza mediante un entrenamiento
controlado por un agente externo (supervisor o maestro) que
determina la respuesta que debera generar la red a partir de
una entrada determinada. El supervisor comprueba la salida de
la red y en caso de que sta no coincida con la deseada, se
proceder a modificar los pesos de las conexiones, con el fin de
que la salida obtenida se aproxime a la deseada.

Redes con aprendizaje no supervisado
Las redes con dicho aprendizaje no requieren de
influencia externa para ajustar los pesos de las
conexiones entre sus neuronas. La red no recibe
ninguna informacin por parte del entorno que le
indique si la salida generada en respuesta de una
entrada es o no correcta. Suele decirse que estas redes
son capaces de auto organizarse.
Estas redes deben encontrar las caractersticas,
regularidades, correlaciones o categoras que se
pueden establecer entre los datos que se presentan en
su entrada.

Algoritmo gentico
Un algoritmo gentico es un mtodo de bsqueda que
imita la teora de la evolucin biolgica de Darwin para
la resolucin de problemas. Para ello, se parte de una
poblacin inicial de la cual se seleccionan los individuos
ms capacitados para luego reproducirlos y mutarlos
para finalmente obtener la siguiente generacin de
individuos que estarn ms adaptados que la anterior
generacin.

Procesamiento de Seales Digitales
Arquitectura de los Procesadores Digitales de Seales (PDS)

Los PDS son microprocesadores que comparten una arquitectura base
optimizada. El procesamiento digital de la seal se basa en la manipulacin
matemtica de las seales representadas en un formato digital, este
anlisis matemtico conlleva un volumen de operaciones numricas muy
elevado. Por esto, la arquitectura de los DSP debe responder a las
necesidades de las operaciones que soportan, fundamentalmente: filtrado,
convolucin, anlisis de espectros, correlacin, etc.
La arquitectura fundamental de los PDS es la Harvard:
Arquitectura Harvard

*La instruccin que con ms frecuencia realiza un PDS estndar es la
multiplicacin y acumulacin. sta debe ser realizada con eficiencia, y para
ello debera ser completada en un ciclo de instruccin. Esto implica que
dos valores deben ser ledos desde memoria y (dependiendo de la
organizacin) un valor debe ser escrito, o dos o ms registros de
direcciones deben ser actualizados, en ese ciclo. Por lo tanto, una longitud
grande en la memoria es tan importante como la operacin de
multiplicacinacumulacin.

*Varios buses y memorias incluidas en el chip son utilizadas de forma que
lecturas y escrituras a diferentes unidades de memoria pueden ser hechas
a la vez. Dos memorias son utilizadas en la arquitectura Harvard clsica.
Una de ellas es utilizada exclusivamente para datos, mientras que la otra
es utilizada para instrucciones. Esta arquitectura alcanza un alto grado de
concurrencia (lecturas y escrituras simultneas).

Ejemplo de un PDS

Programacin de un PDS

Un PDS se puede programar tanto en ensamblador como en C. Cada
familia de PDS tienen su propio lenguaje ensamblador y sus propias
herramientas suministradas por el fabricante. Gracias a la colaboracin
entre fabricantes, existen lenguajes de ms alto nivel (y por lo tanto, ms
sencillos y rpidos de usar) que incorporan la capacidad de programar los
PDS, en general pasando por un precompilado automtico en C. Son los
casos de LabVIEW y Matlab.

Ejemplo de un filtro con script m compatible con LabVIEW MathScript
y con Matlab

En el siguiente ejemplo se presenta la programacin de un filtro digital en
script m. El parmetro "entrada" es un valor que hay que darle al programa.
Los coeficientes del filtro estn en los arrays den y num. Todas las
operaciones son sumas (o restas), multiplicaciones y almacenamiento en
memoria (variable w).
w=[0 0 0 0 0];
y=zeros(1,length(entrada));
for i=1:length(entrada)
w(5)=entrada(i)-den(2)*w(4)-den(3)*w(3)-den(4)*w(2)-den(5)*w(1);
y(i)= num(1)*w(5)+num(2)*w(4)+num(3)*w(3)+num(4)*w(2);
w(1)=w(2);
w(2)=w(3);
w(3)=w(4);
w(4)=w(5);
end;
Filtro digital usando un PDS
Detector de tono

Es usado para supervisar una seal de audio para un tono de frecuencia especfica
o mltiples tonos. A pesar que puede detectar cualquier frecuencia de audio, por lo
general, se utiliza para detectar los tonos de muy baja frecuencia que no pueden
ser odos por los seres humanos. Los usos tpicos incluyen la difusin de
programas de radio en la red (activar automticamente pausas publicitarias),
sistemas de control (controlar la eliminacin de sistemas en un sistema de audio),
interruptores de audio remotos (cambiar las seales de encendido y apagado
usando tonos), transmisin sub-banda de informacin (transmitir informacin a
travs de una transmisin de audio) y muchos otros usos relacionados.

Evolucin de la sntesis de voz.

La sntesis de voz es la produccin artificial de habla
humana. Un sistema usado con este propsito recibe el
nombre de sintetizador de habla y puede llevarse a
cabo en software o en hardware.
Un sistema texto a voz se compone de dos partes:
un front-end y un back-end. A grandes rasgos, el front-
end toma como entrada texto y produce
una representacin lingstica fontica. El back-end
toma como entrada la representacin lingstica
simblica y produce una forma de onda sintetizada.
En los aos 30, los laboratorios Bell Labs desarrollaron
el VOCODER, un analizador y sintetizador del habla operado por
teclado que era claramente inteligible. Homer Dudley refin este
dispositivo y creo VODER.
Los primeros sintetizadores de voz sonaban muy robticos y eran
a menudo inteligibles a duras penas. Sin embargo, la calidad del
habla sintetizada ha mejorado en gran medida, y el resultado de
los sistemas de sntesis contemporneos es, en ocasiones,
indistinguible del habla humana real.
Codificador de voz
Es un analizador y sintetizador de voz. La voz
humana consiste en sonidos generados por la apertura
y cierre de la glotis (cuerdas vocales), lo que produce
una onda peridica con muchos sonidos armnicos.
Este sonido bsico es entonces filtrado por la nariz y la
garganta (un complicado sistema resonante conocido
como el tracto vocal) de forma controlada, creando la
amplia variedad de timbres del habla. Hay otro
conjunto de sonidos, conocidos como sordos, que no
son generados por la vibracin de las cuerdas vocales.
El vocoder examina el habla encontrando su onda
bsica, que es la frecuencia fundamental, y midiendo
cmo cambian en el tiempo las caractersticas
espectrales, es decir los formantes, que son bandas de
frecuencia donde se concentra la mayor parte de la
energa sonora de un sonido, grabando el habla. Esto
da como resultado una serie de nmeros
representando esas frecuencias modificadas en un
tiempo particular a medida que el usuario habla. Al
hacer esto, el vocoder reduce en gran medida la
cantidad de informacin necesaria para almacenar el
habla. Para recrear el habla, el vocoder simplemente
revierte el proceso, creando la frecuencia fundamental
en un oscilador electrnico y pasando su resultado por
una serie de filtros basado en la secuencia original de
smbolos.

Vocoders analgicos
Crea sonidos mediante manipulacin directa de
corrientes elctricas.
Vocoders digitales
Crea sonidos mediante la manipulacin de una onda
FM digital.
Inteligencia artificial en la sntesis de voz
El reconocimiento automtico del habla (RAH)
o reconocimiento automtico de voz es una disciplina
de la inteligencia artificial que tiene como objetivo
permitir la comunicacin hablada entre seres humanos
y computadoras. Es una herramienta computacional
capaz de procesar la seal de voz emitida por el ser
humano y reconocer la informacin contenida en sta,
convirtindola en texto o emitiendo rdenes que
actan sobre un proceso.

Anlisis espectral de voz CEPSTRUM.
El cepstrum c(n) de la seal de voz se define
como la transformada inversa de Fourier del
logaritmo de su espectro localizado S(co), es
decir,
c(n) = F'1 {In S(co)}
El trmino cepstrum es indicativo de haber
realizado una transformacin inversa del
spectrum (espectro). La variable independiente
del cepstrum se denomina cuefrencia, trmino
formado a partir de la palabra frecuencia, y
tiene carcter temporal.
La principal caracterstica del cepstrum es que permite
separar del espectro de la seal de voz la estructura
fina y los formantes.

Desarrollo de un proyecto de
reconocimiento de voz
Instrumento Musical

Un instrumento musical es un objeto compuesto por la combinacin de uno
o ms sistemas resonantes y los medios para su vibracin, construido con
el fin de reproducir sonido en uno o ms tonos que puedan ser combinados
por un intrprete para producir msica.
Erich von Hornbostel y Curt Sachs publicaron en 1914 una clasificacin de
los instrumentos musicales que es ampliamente seguida en la actualidad.
Establecieron cuatro clases o categoras principales de instrumentos
musicales (a la que aadieron una quinta posteriormente), que a su vez se
dividen en grupos y subgrupos, segn el modo de generacin del sonido:

Idifonos
Membranfonos
Aeronfonos
Cordfonos

Instrumentos idifonos
Son aquellos instrumentos en los que el sonido procede de un cuerpo
slido y es generado por vibracin del instrumento mismo mediante
percusin, frotacin o pulsacin, como en el caso de las claves, xilfono,
campana.

Instrumentos membranfonos
Los membranfonos son aquellos en los cuales el sonido es generado por
la vibracin de una membrana por percusin o frotacin, como es el caso
del timbal, tambor, conga.

Instrumentos aerfonos
Son los llamados instrumentos de viento, donde el sonido es generado por
la vibracin del aire, a causa del roce con una lengeta, labios o cuerdas
vocales, como es en el caso de la flauta, trompeta, saxofn.

Instrumentos cordfonos
Son los llamados instrumentos de cuerda, donde el sonido es generado por
la vibracin de una cuerda mediante percusin, frotacin o pinzamiento,
como en el caso del arpa, guitarra, violn, piano.

Sntesis de voz

La sntesis de voz es la produccin artificial de habla humana. Un sistema
usado con este propsito recibe el nombre de sintetizador de habla y
puede llevarse a cabo en software o en hardware. La sntesis de voz se
llama a menudo en ingls text-to-speech (TTS), en referencia a su
capacidad de convertir texto en habla.
Un sistema de sntesis de voz se compone de dos etapas: la primera toma
una entrada como texto y produce una representacin lingstica fontica,
la segunda toma como entrada la representacin lingstica simblica y
produce una forma de onda sintetizada.

La primera etapa se encarga de dos tareas principales. En primer lugar toma el
texto y convierte partes problemticas como nmeros y abreviaturas en palabras
equivalentes. Este proceso se llama a menudo normalizacin de texto o
preprocesado. Entonces asigna una transcripcin fontica a cada palabra, y divide
y marca el texto en varias unidades prosdicas, como frases y oraciones. El
proceso de asignar transcripciones fonticas a las palabras recibe el nombre de
conversin texto a fonema (TTP en ingls) o grafema a fonema (GTP en ingls). La
combinacin de transcripciones fonticas e informacin prosdica constituye la
representacin lingstica fontica.

La segunda etapa, toma la representacin lingstica simblica y la
convierte en sonido, esta segunda etapa suele ser llamada sintetizador.

Aplicacin de la sntesis de la voz a la msica

Dentro del campo de la creacin musical encontramos software que
mediante este sistema genera voces similares a la de las humanas
capaces de interpretar canciones con gran realismo. Un ejemplo actual es
el caso del sistema Vocaloid, desarrollado por Yamaha Corporation, este
sistema es capaz de reproducir voces humanas con una naturalidad y una
inteligibilidad muy altas utilizando muestras de voz. Para ello el usuario
debe indicar la letra de las canciones y al entonacin con la que desea que
sean cantadas. Tambin es posible modificar otros parmetros de la voz.

Vocoder
Un vocoder (nombre derivado de voice coder, codificador de voz) es un
analizador y sintetizador de voz.
Para su uso como sintetizador de voz el vocoder examina el habla
encontrando su onda bsica, que es la frecuencia fundamental, y midiendo
cmo cambian las caractersticas espectrales con el tiempo grabando el
habla.

Esto da como resultado una serie de nmeros representando esas
frecuencias modificadas en un tiempo particular a medida que el usuario
habla. Al hacer esto, el vocoder reduce en gran medida la cantidad de
informacin necesaria para almacenar el habla. Para recrear el habla, el
vocoder simplemente revierte el proceso, creando la frecuencia
fundamental en un oscilador electrnico y pasando su resultado por una
serie de filtros basado en la secuencia original de smbolos. Para las
aplicaciones musicales, una fuente de sonidos musicales se usa como
portadora, en lugar de extraer la frecuencia fundamental.

Reconocimiento de partituras musicales

Para el reconocimiento de partituras por parte de un computador se utilizan
los sistemas OMR (Optical Music Recognition) que son una aplicacin del
reconocimiento de caracteres (OCR o Optical Character Recognition) a
partir de imgenes digitales.
Utilizando estos sistemas podemos, a partir de una partitura escrita (a
mano o por ordenador) en papel, escanearla y obtener un archivo que
contenga informacin sobre esa partitura, en formatos como MIDI, NIFF o
XML, lo que permite despus reproducirlo en un ordenador, cambiar la
afinacin a la que se debe tocar la cancin automticamente o realizar
hacer cualquier otra modificacin con facilidad gracias a programas
especiales para la edicin de partituras o simplemente almacenarlas e
imprimirlas en cualquier momento.

Los sistemas OMR suelen seguir cuatro etapas en el proceso de
reconocimiento, estas son:
Identificacin del pentagrama. En esta etapa se identifica la posicin de
las lneas del pentagrama y se generalmente se eliminan, dejando
nicamente los smbolos musicales superpuestos a estas.

Localizacin de objetos musicales. Se localizan los smbolos que se
encuentran sobre el pentagrama.

Identificacin de smbolos. Se determina de que tipo es cada smbolo.

Paso a notacin musical. Por ltimo se determina la relacin existente
entre los smbolos y se almacena esta informacin de manera que los
programas como secuenciadores o editores de msica puedan
reconocer, en forma de ficheros como los mencionados anteriormente.

Reconocimiento de Voz

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Reconocimiento de Voz

Загружено:

Авторское право:

Доступные форматы

Qu es?

El reconocimiento de voz es una disciplina de

Вам также может понравиться