Вы находитесь на странице: 1из 65

Tema 3.- Audio.

Tecnologas para los Sistemas Multimedia Curso 2004/05 - 1/65





Tema 3.-

Audio.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 2/65
ndice
NDICE........................................................................................................................................................................ 2
SONIDO....................................................................................................................................................................... 3
3.1. INTRODUCCIN.............................................................................................................................................. 3
3.2. PRINCIPIOS DEL SONIDO................................................................................................................................. 3
3.3. CARACTERSTICAS DE LOS SONIDOS............................................................................................................... 4
3.4. HARDWARE PARA SONIDO............................................................................................................................. 6
3.4.1. Tarjetas de Sonido. ............................................................................................................................... 6
3.4.2. EL DAC, Sensibilidad, Linealidad y Ruido. .......................................................................................... 8
3.4.3. Micrfonos .......................................................................................................................................... 10
3.4.4. Altavoces ............................................................................................................................................. 15
3.5. DIGITALIZACIN DEL SONIDO...................................................................................................................... 21
3.6. EDICIN DE SONIDO DIGITAL. ...................................................................................................................... 23
3.7. EL ESTNDAR M.I.D.I. ................................................................................................................................ 24
3.7.1. Descripcin del estndar M.I.D.I........................................................................................................ 25
3.7.2. Interfaz M.I.D.I. .................................................................................................................................. 25
3.7.3. Los canales M.I.D.I............................................................................................................................. 25
3.7.4. Conexionados M.I.D.I. ........................................................................................................................ 26
3.7.5. Mensajes M.I.D.I................................................................................................................................. 26
3.7.6. Dispositivos usados en M.I.D.I. .......................................................................................................... 29
3.8. FORMATOS DE ARCHIVOS DE AUDIO............................................................................................................ 30
3.8.1. WAV .................................................................................................................................................... 31
3.8.2. MP3..................................................................................................................................................... 31
3.8.3. VQF..................................................................................................................................................... 36
3.8.4. OGG VORBIS ..................................................................................................................................... 37
3.9. AUDIO DIGITAL ............................................................................................................................................ 43
3.9.1. SRS. ..................................................................................................................................................... 43
3.9.2. DOLBY DIGITAL AC-3. ..................................................................................................................... 44
3.9.3. SUPER AUDIO-CD............................................................................................................................ 45
3.9.4. HDCD................................................................................................................................................. 46
3.9.5. DVD-Audio ......................................................................................................................................... 46
3.9.6. TABLA COMPARATIVA DE SISTEMAS DE AUDIO DIGITAL....................................................... 50
3.10. SONIDO EN INTERNET .............................................................................................................................. 51
3.10.1. Estrategias de uso del sonido en pginas web.................................................................................... 51
3.10.2. Grabacin de sonidos para pginas web............................................................................................ 53
3.10.3. Ejemplos de insercin de sonido en web............................................................................................. 53
3.10.4. Streaming ............................................................................................................................................ 54
3.11. HERRAMIENTAS PARA EL TRATAMIENTO DE AUDIO................................................................................. 59
3.11.1. Editores............................................................................................................................................... 59
3.11.2. Compresin/Conversin...................................................................................................................... 63
3.11.3. Streaming ............................................................................................................................................ 65
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 3/65
Sonido.
3.1. Introduccin.

El sonido es uno de los elementos ms importantes, junto con el vdeo, en un sistema o
produccin multimedia. Como el resto de medios que utilizamos en las producciones multimedia, el
almacenamiento y tratamiento del sonido se realizar mediante tcnicas digitales. Esto significa que el
sonido, un fenmeno fsico esencialmente analgico, ha de ser convertido en una seal elctrica y
despus transformado en informacin digital y almacenado en la memoria de un ordenador. Otra forma
de manejar el sonido en un sistema multimedia es generndolo directamente mediante instrumentos
musicales electrnicos, que pueden estar integrados en los circuitos del propio computador o ser
dispositivos externos con los que habr que comunicarse adecuadamente.

Toda esta problemtica se tratar en los puntos siguientes, comenzando por los conceptos bsicos
del sonido, seales analgicas, conversin a valores digitales, su almacenamiento y, terminando con los
aspectos relacionados con la generacin de sonidos sintticos.

Tambin abordaremos con ms detenimiento el estudio de algunos formatos de audio muy
extendidos como el MP3, VQF, Dolby Digital, etc.

3.2. Principios del sonido.

El sonido se produce por la interaccin de un objeto que vibra, un medio de transmisin y un
receptor, es decir, una onda de presin se transmite a travs de un medio, como el aire, y produce una
sensacin, llamada auditiva, al perturbar el estado de reposo de las estructuras del odo. Para que el
sonido sea percibido por el ser humano, el objeto debe vibrar con una frecuencia de entre 20 Hz. y 20
KHz.


Figura 1. El sonido.

La vibracin produce una compresin y refraccin alternativa del aire que se transmite en forma
de ondas sonoras. Estas ondas llegan al odo, donde se producen unos estmulos elctricos que el
cerebro interpreta como sonidos. Las ondas sonoras se atenan con la distancia y pueden ser absorbidas
o reflejadas por los obstculos que encuentran a su paso.

La estructura de nuestro sistema auditivo para la recepcin del sonido es el que se describe a
continuacin. El tmpano, que es una membrana, vibrar en simpata con las partculas de aire que la
rodean y provocar la vibracin de los huesos del odo interno. En la siguiente figura se puede apreciar
la estructura del rgano auditivo.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 4/65

Figura 2. El odo.

El elemento que transforma estos movimientos vibratorios en seales neuronales es la membrana
basilar, dentro de la cclea. La forma de la cclea hace que las vibraciones que penetran en ella a travs
de la ventana oval alcancen de forma ms intensa una zona ms o menos profunda en funcin de su
frecuencia. La membrana basilar est recubierta de pequeas vellosidades conectadas a haces nerviosos
que transmiten la informacin al cerebro. Como se puede apreciar por esta descripcin, la informacin
espectral del sonido (conjunto de frecuencias que componen la seal en un momento dado) llega ya
desmenuzada a los centros auditivos del cerebro.


Figura 3. Esquema del odo.


3.3. Caractersticas de los sonidos.

Existen una serie de caractersticas que nos permiten identificar y diferenciar unos sonidos de
otros. Las principales podemos resumirlas en las siguientes:

INTENSIDAD:

Corresponde a la amplitud de la onda sonora, es decir a cunto se alejan las partculas ( y por
tanto el tmpano) de su posicin de reposo en cada periodo de la vibracin. El odo responde a un rango
de intensidades impresionante, desde el sonido casi imperceptible al umbral del dolor. La sensacin
sonora se incrementa aproximadamente al doble cada vez que la amplitud del sonido se multiplica por
diez. Muchos sonidos presentan un patrn claro de intensidad que vara con el tiempo. A este patrn se
le llama envolvente. Por ejemplo, un piano presenta un fuerte golpe de gran intensidad inicial, que
decae ms o menos rpidamente hasta desaparecer. Una flauta sin embargo, presenta una envolvente
ms aplanada, ya que no existe golpe inicial, sino una intensidad del sonido mantenida mientras dura la
nota.


Figura 4. Envolvente de intensidad de un sonido.


Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 5/65
Las intensidades de los sonidos que podemos percibir tienen un rango de ms de 15 rdenes de
magnitud por lo que para su medicin se usa una escala logartmica (decibelios)

2
2
10
log 10
ref
a
a
dB =

donde a es la amplitud de onda del sonido que se est midiendo, y a
ref
es la amplitud de
referencia (la del sonido con el cual se compara). As los decibelios son una relacin entre dos
amplitudes de onda. Si se toma como amplitud de referencia el umbral de audicin, la siguiente tabla
muestra la intensidad en dB de algunos sonidos representativos:

Descripcin Nivel (dB) Intensidad
Umbral del dolor 130 10
13
Concierto heavy metal 120 10
12
Martillazos sobre metal 110 10
11
Trfico de vehculos 70 10
7
Conversacin normal 60 10
6
Restaurante concurrido 50 10
5
Casa en la ciudad 40 10
4
Iglesia vaca 30 10
3
Estudio de grabacin 20 10
2
Umbral de audicin 0 1

Relacionado con la intensidad est el concepto de rango dinmico, que es la diferencia en
decibelios entre el sonido ms fuerte y ms dbil que un sistema puede producir. En un aparato de
sonido, este valor indica la diferencia entre el volumen mximo y el ruido de fondo que se emite cuando
no hay seal. En los equipos de sonido de cierta calidad el rango dinmico oscila entre los 80 dB y los 95
dB.

FRECUENCIA Y PERIODO:

Son dos conceptos que representan el mismo fenmeno fsico y que estn inversamente
relacionados. Miden, respectivamente, cuntas vibraciones por segundo se producen y cuantas
fracciones de segundo dura una vibracin. Las unidades en que se mide la frecuencia son los ciclos por
segundo, o hercios (Hz). El periodo se mide en segundos. Los humanos somos capaces de percibir
frecuencias de entre 20 y 20.000 Hz aproximadamente.


Figura 5. Movimiento armnico simple y ondas complejas.

TONO:

El tono de un sonido est directamente relacionado con la frecuencia, aunque no son sinnimos.
La frecuencia es una magnitud fsica asociada a todo sonido, mientras que el tono (agudo o grave) es
una caracterstica perceptiva que solo captamos en los sonidos peridicos: los que tienen una frecuencia
ms o menos constante.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 6/65
Desde el punto de vista musical, al duplicar la frecuencia de un sonido, se pasa a la octava
siguiente. Por ejemplo, el La de la octava central del piano tiene una frecuencia de 440 Hz., y el La de la
siguiente octava (ms agudo), 880 Hz. En la msica occidental, la octava se divide en 12 semitonos (las
doce teclas que hay en cada octava de un piano). Para obtener la frecuencia de un semitono a partir de
la frecuencia del anterior, hay que multiplicar por
12
2= 1,05946. Las notas correspondientes a las teclas
blancas del piano se denominan

Terminologa europea Do Re Mi Fa Sol La Si
Terminologa anglosajona C D E F G A B

Las notas correspondientes a las teclas negras del piano se denominan con el nombre de la tecla
blanca situada a la izquierda aadindole el smbolo # (sostenido), o con el nombre de la tecla blanca
situada a la derecha, aadindole el smbolo b (bemol). As, la tecla negra que est entre el Do y el Re
ser indistintamente Do# o Re b.

TIMBRE:

Dos instrumentos musicales distintos, como un violn y una flauta, que estn interpretando la
misma nota (frecuencia) con la misma intensidad, son sin embargo claramente diferenciables. Esto es as
porque existe una tercera caracterstica importante de los sonidos que es su timbre o forma de onda. Lo
que ocurre en realidad es que no todos los sonidos son tan simples como el movimiento armnico de un
pndulo, sino que la mayora estn provocados por movimientos complejos de los objetos. Estos
movimientos complejos, sin embargo, se pueden descomponer en una suma de movimientos simples.
La frecuencia de vibracin ms grave (frecuencia base o frecuencia fundamental) es la que determina el
periodo y la amplitud y es la que percibimos. Las restantes frecuencias, que suelen ser mltiplos de la
frecuencia base, son los armnicos. Por ello, el timbre corresponde al conjunto de frecuencias que se
pueden encontrar en un sonido en mayor o menor proporcin.



Figura 6. Espectros de frecuencias.

3.4. Hardware para sonido
3.4.1. Tarjetas de Sonido.

El elemento hardware bsico para realizar las tareas relacionadas con el sonido en un ordenador
es la tarjeta de sonido. En los ordenadores personales tpicos, las podemos encontrar en BUS ISA (cada
vez menos), PCI (las ms frecuentes) e incluso integradas en placa base. En la siguiente figura podemos
ver el aspecto que presenta una tarjeta de sonido tpica.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 7/65

Figura 11. Aspecto de una tarjeta de sonido tpica.

Aparte de las capacidades de muestrear y reproducir sonidos (ADC y DAC), la mayora de las
tarjetas de sonido disponen de los siguientes elementos:
Un chip de sntesis de efectos sonoros por tabla de ondas o por modulacin de
frecuencia. Se usa a menudo para emular instrumentos MIDI sin necesidad de conectar
un verdadero instrumento a la tarjeta.

Un mezclador capaz de seleccionar y combinar las seales procedentes del micrfono,
entrada de lnea, reproductor de discos compactos, DAC y chip de sntesis, y dirigir esta
seal combinada a la salida de altavoces a la de auriculares, o al ADC. La figura 12 ilustra
las conexiones del mezclador.

Controlador de un lector de CD-ROM (esto es menos frecuente en las nuevas tarjetas).

Procesador de audio, DSP (Digital Sound Processor). Algunas tarjetas poseen un
procesador de audio, capaz de realizar operaciones sobre el audio en tiempo real.


Figura 12. Conexiones del mezclador.

Las tarjetas de Sonido, para relacionarse con el mundo exterior suelen disponer de las siguientes
conexiones:

Salida Analgica Amplificada para altavoces. En esta salida la tarjeta de sonido suele
entregar una seal amplificada de 2 a 4 W. Sirve para conectar los altavoces a la tarjeta.

Salida Analgica Sin Amplificar (Line Out). Esta seal proviene del mezclador y se
entrega sin amplificar, para conectar la salida de sonido a un amplificador externo.

Micrfono. Mediante esta conexin se conecta la entrada de la seal del micrfono.

Entrada Analgica Auxiliar (Line In). Esta entrada permite introducir en la tarjeta la
seal proveniente de una fuente externa, como una radio, un equipo de msica, etc.
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 8/65

Conector MIDI / Joystick. Este conector permite la conexin de un JoyStick analgico o
bien servir de interfaz para la conexin con otros dispositivos MIDI, como teclado,
sintetizadores, etc.


Figura 13. Esquema de conexiones de una Sound Blaster 16.

En cuanto a las capacidades y prestaciones de una tarjeta de sonido, hay que destacar en primer
lugar el nmero de bits de los ADC y DAC. En las primeras tarjetas haba que conformarse con 8 bits,
es decir tan slo 256 niveles de seal discernibles. En la actualidad la mayora de tarjetas disponibles
son de 16 bits, lo cual supone 65536 niveles, proporcionando una relacin entre el nivel menor y el
mayor superior a la que pueden manejar los circuitos analgicos tpicos. Por ejemplo, la Soundblaster
Audigy Platinium Ex usa 24 bits. Hay que mencionar tambin que las denominaciones de algunas
tarjetas cuyo nombre comercial incluye nmeros como 32, 64 o 128 (AWE-32, AWE-64, SB128PCI,
Terratec Maestro32, etc.) no deben llevar a engao. Estos nmeros indican tpicamente el nmero de
voces MIDI que puede generar su chip de sntesis. La mxima frecuencia de muestreo utilizable es
tambin una caracterstica bsica de una tarjeta de sonido, aunque en la actualidad todas las tarjetas
superan las 44.000 muestras por segundo, lo cual excede al doble de la mxima frecuencia perceptible
por el odo humano normal.

Las tarjetas de sonido actuales disponen todas de la circuitera duplicada para permitir grabacin
y reproduccin en estereofona. Otra caracterstica presente en algunas tarjetas de sonido recientes es la
capacidad de grabar (ADC) y reproducir (DAC) al mismo tiempo ("full duplex"). Si adems las
frecuencias de muestreo de la grabacin y la reproduccin pueden ser distintas, entonces la prestacin
se denomina "enhanced full duplex". Finalmente, se estn introduciendo tarjetas con capacidad de
proceso de la seal para simular que el origen de los sonidos se encuentra en una posicin y estado de
movimiento concretos en el espacio tridimensional alrededor del oyente. Para ello se emplean tcnicas
de alteracin de la amplitud, frecuencia (efecto doppler) y fase de los sonidos. Esto permite que el
usuario perciba el sonido como procedente del lugar en el que se desarrolla la accin en un simulador o
un juego, por ejemplo. Algunos de estos sistemas proporcionan salida para 4 o ms altavoces, en lugar
de los 2 tradicionales.

3.4.2. EL DAC, Sensibilidad, Linealidad y Ruido.

El elemento clave en la digitalizacin de audio es el conversor analgico/digital o DAC, que
transforma la seal de audio en una secuencia de datos binarios. Estos conversores se caracterizan por
una serie de propiedades, entre las cuales podemos destacar las siguientes: frecuencia de muestreo,
resolucin de la muestra, umbral de sensibilidad, linealidad de la respuesta y ruido.

Como vemos, la frecuencia de muestreo y la resolucin que hemos descrito anteriormente son
slo dos de las caractersticas que definen la calidad de un DAC, y posiblemente las otras tres que
mencionamos sean ms importantes que estas dos. Vamos a verlas con ms detenimiento.

UMBRAL DE SENSIBILIDAD:

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 9/65
Imaginemos que estamos en una fiesta entre amigos. Estamos bailando, bebiendo, y en medio de
la juerga se nos acerca un amigo y nos pide las llaves del coche. Lo normal es que no le oigamos a la
primera y le respondamos que las 2 de la maana. Nuestro amigo se da cuenta de que no le omos
bien y eleva la voz; esta vez no pide las llaves en voz alta, sino que grita y se acerca nuestros odos.
Ahora le hemos podido entender. La diferencia de intensidad entre la primera y la segunda vez es el
umbral de sensibilidad que tenemos en esos momentos para discernir una conversacin. En trminos
absolutos, el sonido ms leve que podemos escuchar es el que producen las alas de un mosquito al batir,
y el ms intenso, ms all del cual podemos rompernos los tmpanos, es el de un avin a reaccin
aterrizando.

Los DAC tambin tienen un umbral de sensibilidad, y una tolerancia, lo que quiere decir que no
slo es importante que puedan discernir una diferencia de intensidad ms o menos amplia, sino que
adems dos mediciones del mismo sonido deben dar el mismo resultado. Una de las diferencias ms
importantes entre el DAC de una tarjeta de sonido normal y una profesional es la tolerancia. Esta
depende de los controles de calidad que se aplican en la fabricacin del chip, y puede variar mucho de
uno a otro.

LINEALIDAD:

Volvamos al ejemplo de la fiesta. Estamos bailando un ritmo lento; apenas damos un salto cada
dos o tres segundos. De repente, cambian la msica y empieza un tema rock. Los saltos aumentan y
ahora es posible que demos uno por segundo. Cambian de nuevo la msica y ponen algo heavy; si
intentamos mover la cabeza ms de tres o cuatro veces por segundo podemos perder la consciencia.
Esto quiere decir que nuestra cabeza tiene un comportamiento lineal hasta los tres o cuatro
movimientos por segundo. Ms all de esta cifra, rompemos el ritmo (y el cuello). Un DAC tambin
tiene respuesta en frecuencia. Como podemos deducir del ejemplo de la fiesta, los objetos que se
comportan bien a una frecuencia puede que no lo hagan en otra; incluso pueden dar resultados
errneos.

La linealidad de la respuesta es otra caracterstica importantsima de los instrumentos musicales
y de los sistemas de grabacin y reproduccin. La razn de que haya altavoces de dos y tres vas es que
cada uno de los conos que los forman slo responden bien en una franja estrecha del espectro auditivo.
As, es necesario un tweeter para reproducir agudos y un woofer para los tonos graves.

Todo tiene una respuesta en frecuencia caracterstica, desde el micrfono hasta los cables,
pasando por el DAC y las membranas de los altavoces. Por norma un dispositivo es mejor cuanto ms
lineal es su respuesta, aunque esto tampoco es cierto del todo. Nuestro odo es el primero que no
responde por igual a todas las frecuencias. De hecho, es ms sensible a los tonos agudos que a los
graves.

Los sistemas de audio ms profesionales buscan lo que se llama color del sonido, que es un
comportamiento algo irregular, parecido al que tiene el odo humano.

RUIDO:

Volvamos, por ltima vez, al ejemplo de la fiesta. Estamos oyendo un tema y en un momento
dado se acaba el disco. Cuando finaliza su reproduccin podemos escuchar una especie de silbido que
proviene de los altavoces. Pero cmo es posible? Especialmente si utilizamos un lector de discos
compactos, no debera escucharse nada cuando no hay msica.

El problema es que los circuitos elctricos y electrnicos tienen ruido. Y qu es el ruido? Pues los
temas de algunos grupos modernos podran denominarse as, pero en general el ruido es todo aquello
que se oye pero no debera orse.

Los DAC tambin tienen ruido. Muy poco, es cierto, pero ah est y si se combina un ruido un
poco elevado con un circuito poco preciso, podemos encontrar que la tolerancia de las muestras llega a
distorsionar la grabacin. De hecho, esto es lo que ocurre con muchas tarjetas de sonido econmicas.
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 10/65

3.4.3. Micrfonos

Micrfono es el trmino genrico que se usa para hablar de los elementos que transforman la energa
acstica, (sonido - fuente original: guitarra, voz), en energa elctrica, (la seal de audio - ya sea Digital o
analgica). El micrfono es un tipo de transductor, un dispositivo, que transforma energa de una forma a
otra. El micrfono se usa para amplificar la seal de audio original, la cual reproduciremos o copiaremos
(ya sea similar o distorsionada) a otra por medio de dispositivos elctricos, teniendo en cuenta que nunca
volvern a ser como haban sido en un principio (por muy buen micro que se tenga, nunca se lograr el
sonido original que emite la fuente), es decir, no existe el micro perfecto y nunca reproduciremos el
sonido original como la fuente nos a lo ha hecho llegar, pero segn el micro lograremos ms calidad,
semejanza, cercana, cuerpo, etc Todo aquello que nos rodea, que es lo que nos va a afectar en la
grabacin y hay que tenerlo en cuenta en la eleccin de un micrfono, ya sea la localizacin, cableado,
mesa, conversores, dinmica, acstica de la sala de captacin, etc Y aqu es donde podemos aplicar una
de las mximas o mandamientos, dentro del mundo del sonido:

TU EQUIPO SONAR COMO SUENE EL PEOR DE LOS COMPONENTES DE TU EQUIPO.

Es decir que cuando tengamos que comprar un micrfono o cualquier componente de nuestro
estudio tendremos que tener en cuenta que todos los elementos del estudio sean semejantes unos a otros
ya que aunque compremos un gran micrfono el registro del sonido no depender solamente de la
calidad de ese micrfono, sino de todo la cadena de registro que tengamos, (aunque contra mejor micro,
mejor captacin, es lgico).

Principales diseos de micrfonos

Existen seis diseos comunes de micrfonos:

De mano - tipo de micrfono que usa en la mano el talento o en entrevistas en locacin
Lavaliere - Sola colgar de un cordel alrededor del cuello. Una variacin ms actualizada es el
micrfono personal (de corbata o solapa) o de clip
Can (shotgun) - usado en producciones en locacin para captar sonidos a distancia de la
cmara
Micrfono piezoelctrico - llamado PZ o PZM, este tipo de micrfonos ofrecen una ptima
captacin de sonidos transmitidos a travs de superficies duras, como por ejemplo una mesa
Micrfonos de contacto - captan el sonido en contacto directo con la fuente sonora. Este tipo de
micrfonos se encuentran generalmente montados en instrumentos musicales.
Micrfonos de estudio - es la categora mas grande de micrfonos e incluye varios diseos segn
su aplicacin

Estas seis categoras poseen diferentes tipos de transductores o elementos encargados de convertir
las ondas sonoras en energa elctrica.

Micrfonos dinmicos

Los micrfonos dinmicos (tambin llamados de bobina mvil) son considerados como los
micrfonos profesionales ms resistentes. Este tipo de micrfono es una buena eleccin para la labor
periodstica (ENG) donde comnmente se encuentra una variedad de condiciones difciles (como el
incendio aqu ilustrado). En un micrfono dinmico las ondas sonoras golpean un diafragma soportado
en una bobina de cable fino. La bobina se encuentra suspendida en un campo magntico permanente.
Cuando las ondas sonoras golpean el diafragma este hace vibrar la bobina en el campo magntico. El
resultado es una pequea corriente elctrica generada por la friccin, esta corriente tendr que ser
despus amplificada miles de veces. Una de sus mayores ventajas es que no requieren de una fuente
externa de energa para operar y son particularmente resistentes al abuso fsico. Sin embargo su fidelidad
no siempre es la mejor. Cuando se requiere de menor tamao, excelente sensibilidad y la mejor calidad de
respuesta, otro tipo de micrfono es preferido: el micrfono de condensador.
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 11/65

Micrfonos de condensador / capacitor

Los micrfonos de condensador (tambin llamados capacitores o micrfonos de condensador
elctrico) poseen una incomparable calidad de respuesta. Adems pueden ser tan pequeos que son
fciles de esconder. Sin embargo, la mayora de los micrfonos de condensador no son tan resistentes
como los dinmicos y el trabajo en condiciones climticas adversas puede resultar un problema. Los
micrfonos de condensador funcionan bajo el principio de un condensador elctrico o capacitor. Un
diafragma de metal ultra delgado es fuertemente estirado sobre una pieza plana de metal o cermica. En
la mayora de los micrfonos de condensador una fuente de poder provee una carga elctrica entre ambos
elementos.

Las ondas sonoras que golpean el diafragma causan fluctuaciones en la carga elctrica que deben ser
posteriormente amplificada en el preamplificador (pre-amp). Dicho preamplificador puede estar
integrado al cuerpo del micrfono o estar ubicado en un dispositivo separado. Debido a que estos
micrfonos requieren de un preamplificador ello implica que, a diferencia de sus contrpartes dinmicas,
la mayora de los micrfonos de condensador requieren de una fuente de poder, ya sea de corriente o
bateras. Para proveer de corriente AC a un micrfono de condensador usualmente la fuente est
integrada en la mezcladora de audio. A esto se le conoce como fuente fantasma (phantom power).
Cuando su utiliza este tipo de alimentacin el cable del micrfono sirve a dos propsitos: entrega la seal
captada por el micrfono a la csola y lleva la energa de la csola al preamplificador del micrfono.

El uso de bateras como alimentacin del preamplificador es mas conveniente (no se tiene que
utilizar un mezclador especial u otro dispositivo de alimentacin de corriente), pero tambin representa
un problema: al final de su ciclo de vida las bateras se "mueren" sin previo aviso. Para evitar esta
situacin en plena produccin, especialmente en vivo, suele colocarse dos micrfonos miniatura de
condensador junto al talento. Si alguno de los micrfonos falla, el otro puede ser inmediatamente
activado. Esta tcnica del micrfono doble es conocida como cobertura dual (dual redundancy).

Existe otro tipo de micrfonos en uso como el micrfono de cinta (ribbon), que es mucho ms
sensible, pero an as los de tipo dinmico y de condensador son los ms usados en la produccin de
televisin.

Micrfonos piezoelctricos

Los Pz (a veces abreviados como PZM) son micrfonos de presin que se utilizan limitadamente
para ciertos efectos. Este micrfono depende enteramente de la reflexin del sonido. En situaciones
especiales (como cuando est ubicado en la superficie de una mesa) un PZ tiene una respuesta superior a
cualquier otro tipo de micrfono.


Micrfonos de Mano

Normalmente los micrfonos de mano son dinmicos ya que estos controlan mejor las saturaciones
de algunos cantantes. Debido a que estos micrfonos son utilizados a muy cortas distancias, algunas
consideraciones especiales deben ser mencionadas. Primero, es aconsejable que el micrfono est
inclinado unos 30 grados y no completamente perpendicular a la boca. Hablar o cantar directamente al
micrfono frecuentemente crea un seseo indeseable (una exageracin o distorsin del sonido "S"); popeo
de sonidos explosivos (palabras que inician en "p, s, t y b) y el indeseable efecto de proximidad (la
exageracin de las frecuencias bajas que mencionamos antes). La mayora de los micrfonos de mano
estn diseados para usarse a una distancia de 8 a 16 pulgadas, pero esta distancia puede tener que ser
reducida en situaciones ruidosas. Muchos micrfonos de mano tienen integrado un filtro de popeo
diseado para reducir el impacto de consonantes explosivas.

Cuando un micrfono es usado muy de cerca es recomendable colocar un escudo de viento sobre el
micrfono para reducir ms el efecto de sonidos explosivos. Estas protecciones ayudan en el trabajo en
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 12/65
locacin a solucionar un problema comn: el efecto del viento sobre la membrana del micrfono. Incluso
una suave brisa puede crear una turbulencia que estorbe al sonido de una voz.

Micrfonos Personales

Los micrfonos personales pueden encontrarse colgando de un cordel alrededor del cuello (lavaliere
o lav mic) o sujetados con un clip a la ropa (clip-on mic). Este tipo de micrfono puede ser de
condensador o tipo dinmico. Los micrfonos personales de condensador pueden ser muy pequeos y
discretos -- una ventaja importante cuando es necesario ocultar el micrfono. Cuando se coloca un
micrfono personal no debe estar junto a piezas de joyera o pins decorativos. Cundo el talento se mueva
el micrfono puede rozar contra cualquiera de estos objetos y causar ruido. Los micrfonos personales
estn diseados para captar sonidos a 14 pulgadas. Si un micrfono de clip es colocado en la solapa de un
saco o el lado de un vestido tenemos que anticipar en que direccin girar el talento en el momento de
hablar. Si la persona gira al contrario del micrfono la distancia entre el mismo y su boca se incrementar
hasta 2 pis.

Micrfono / Audfono

El micrfono / audfono est adaptado a las necesidades de las transmisiones deportivas.
Normalmente un micrfono dinmico unidireccional con un filtro antipopeo est integrado a dos
audfonos que llevan dos seales separadas: el audio del evento y las indicaciones del director. El
micrfono integrado a la diadema del audfono asegura una distancia constante entre micrfono y boca,
an cuando el locutor se encuentre en movimiento constante.


Efecto de Proximidad

Porque ser que an con los ojos cerrados podemos fcilmente percibir si la persona que nos est
hablando se encuentra a dos o quince pis de nosotros? Primero podemos suponer que la voz de una
persona a dos pis de distancia se escuchara mas fuerte que la de alguin a 15 pis. Esto es parte de la
respuesta, pero existen otras razones. Podramos pensar que la voz de una persona de cerca suena
diferente a una persona a distancia. Esta diferencia se acenta significativamente cuando tratamos de
editar escenas diferentes. Para montar el audio en escenas que tienen notables diferencias de audio
debemos entender como cambia el sonido con la distancia. El sonido al viajar por la distancia pierde
frecuencias bajas (graves) y en el extremo del recorrido frecuencias altas (agudo). Es por esto que los
micrfonos usados a distancias cercanas normalmente sufren lo que llamamos efecto de proximidad -- o
sea respuesta exagerada a frecuencias bajas. Algunos micrfonos poseen filtros que reducen las
frecuencias graves no naturales provocadas por las distancias cercanas.

Cuando son usados micrfonos direccionales a diferentes distancias la perspectiva sonora o
presencia de audio (balance de frecuencias sonoras y otras caractersticas acsticas) cambia en
correspondencia con cada distancia diferente. Es posible tratar de corregir este defecto durante la fase de
post-produccin donde varios sistemas para mejorar el audio son utilizados como ecualizadores grficos
(discutidos antes) para tratar de empatar el audio de escenas sucesivas. De cualquier forma es preferible
evitar el efecto de proximidad desde la fuente original. Adems diferentes micrfonos y diferentes
locaciones poseen caractersticas diferentes de audio lo cual complica el proceso de edicin.


Conexiones

Para asegurar la fidelidad de los micrfonos y equipos de audio en general los conectores deben
mantenerse limpios, secos y en buen estado, sin dobleces o partes sueltas. Los dos conectores en la
fotografa de la izquierda son la hembra y el macho de conectores tipo Canon. Estos conectores de tres
pins son comunes en equipos de audio profesionales. Tambin existen los conectores miniatura (con el
conector flotante al centro) para monoaural y estreo. Finalmente a la derecha se encuentra un conector
tipo RCA. Cuando se usan en locacin los conectores de audio deben mantenerse secos, sin embargo los
cables de los micrfonos pueden encontrarse sobre pasto mojado o incluso cruzar por agua (nada
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 13/65
recomendable) sin efectos dainos (asumiendo que la cobertura plstica no est daada). Si usted debe
trabajar en lluvia o nieve la humedad puede evitarse envolviendo los conectores en bolsas plsticas bien
selladas. Debe enfatizarse que esto solo se aplica a cables de micrfonos.

Micrfonos inalmbricos

Los micrfonos inalmbricos pueden resolver muchos problemas de audio durante una produccin,
especialmente cuando el talento debe estar libre de cables que entorpezcan el movimiento. En un
micrfono inalmbrico un micrfono de condensador se conecta a un radio transmisor miniatura de
frecuencia modulada. Debido a que la seal de audio es convertida en una seal de radio frecuencia estos
micrfonos tambin son conocidos como RF mics. Existen dos tipos de micrfonos inalmbricos: el
integrado (todo en una pieza) o el de dos piezas.

En el integrado de mano se encuentran el micrfono, el transmisor, la batera y la antena construidos
en un mismo cuerpo como el que se muestra a la izquierda. Cuando se desea utilizar un micrfono
pequeo de clip, un sistema de dos piezas es la mejor opcin. En este caso el micrfono se conecta a una
unidad separada de transmisin que puede estar sujetada en un cinturn, colocada en un bolsillo, o
incluso ocultada bajo la ropa. Muchos de los problemas de interferencia, seal dbil y otros que
presentaban los primeros micrfonos inalmbricos han sido resueltos y eliminados. Actualmente los
micrfonos RF son ampliamente usados en estudio y locacin. Incluso las cmaras-grabadoras poseen un
receptor integrado para usar micrfonos inalmbricos eliminando el fastidioso cable que normalmente
conecta al reportero con la cmara.



Rango de transmisin

En un micrfono inalmbrico, el sonido se convierte en una dbil seal de frecuencia modulada y se
transmite en patrn semicircular por medio de una antena interna (en el interior del cuerpo del
micrfono) o externa (generalmente en forma de un pequeo cable sujetado en la base del cuerpo). En
este ltimo caso, la antena debe mantenerse relativamente extendida y no doblada en un bolsillo. En
condiciones ptimas los micrfonos inalmbricos pueden transmitir fielmente en un radio de poco mas
de 1,000 pies (180 mts.). Si hay obstrucciones, especialmente objetos de metal, esta distancia puede
reducirse aproximadamente 250 pies (40 mts.).


Problemas de interferencia

Los objetos de metal que interfieren entre el micrfono RF y el receptor crean una condicin
conocida como recepcin mltiple (multipath), producida en parte por la reflexin de la seal en dichos
objetos. Esta seal secundaria interfiere con la seal original. Este problema puede ser particularmente
problemtico si el talento se encuentra en movimiento alrededor de los objetos que interfieren. Como
veremos, este problema puede ser solucionado. Debido a las limitaciones impuestas por la FCC
(Comisin Federal de Comunicaciones en Estados Unidos), la seal FM del micrfono, debe ser
relativamente dbil. Debido a esto otro tipo de radiotransmisiones pueden interferir ocasionalmente. A
esto se le conoce como interferencia RF. A pesar que estas seales pueden encontrarse en frecuencias
diferentes, las transmisoras cercanas emiten seales armnicas (secundarias) que si son lo suficientemente
fuertes pueden ser captadas por un micrfono inalmbrico. Para que una seal de micrfono RF sea fiel
debe tener al menos el doble de potencia que la seal de interferencia. La mayora de los micrfonos RF
transmiten en frecuencias mayores que las de la radio FM y del rango VHF (very high frequency), o en
parte de la banda UHF (ultra-high frequency) que por encontrarse menos saturada es preferida por
muchos ingenieros de audio. Debido a que la frecuencia UHF es utilizada tambin por otros radio-
servicios, los micrfonos inalmbricos profesionales permiten seleccionar diferentes frecuencias. En
algunos equipos pueden encontrarse diez grupos diferentes cada uno con siete canales para seleccionar.
Con todas estas opciones disponibles generalmente es posible encontrar alguna frecuencia libre de
interferencia.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 14/65
Antenas receptoras

Una buena seal de micrfono RF tendra poco valor si no puede ser recibida sin recepcin mltiple
o cualquier tipo de interferencia. Una de las maneras mas efectivas de eliminar la interferencia es
colocando adecuadamente la antena (o antenas) receptora. Existen dos tipos de receptores para
inalmbricos. El receptor nico usa una sola antena montada en la parte trasera del receptor. Este tipo de
receptor es ms propenso a problemas de recepcin -- especialmente cuando el talento se encuentra en
movimiento. En los receptores duales se utilizan dos antenas. Ya que estas pueden ser colocadas a cierta
distancia entre ellas, se asume que en el momento en que alguna antena no est recibiendo
adecuadamente la seal la otra antena si lo hara. Para evitar que ambas antenas interfieran entre s,
circuitos electrnicos trabajan constantemente en el interior del receptor para seleccionar
instantneamente la ms clara y fuerte de las dos seales. Tanto con receptores nicos como duales
pueden usarse varios micrfonos inalmbricos simultneamente, cada uno en una diferente frecuencia de
radiotransmisin. Una vez recibida, cada seal es enviada a un mixer de audio y controlada como una
seal normales.

Micrfonos no visibles en escena

Aunque puede ser apropiado usar micrfonos de mano, lavalier o inalmbricos en entrevistas, hay
muchas situaciones en produccin donde se hace necesario usar micrfonos no visibles -- generalmente
fuera del campo de la vista de la cmara. Algunos ejemplos son:

Cuando ver un micrfono no sera apropiado, como en el caso de una produccin dramtica.
Cuando los cables del micrfono restringiran el movimiento de talento, como en un nmero del
baile.
Cuando hay demasiadas personas en la escena como para usar micrfono en mano o micrfonos de
RF, como con un coro.
Debido a su naturaleza, los micrfonos no-direccionales, omni-direccionales o los de patrn
cardioide usados a una distancia de 2 o ms metros recogen sonidos indeseados. Dependiendo de la
acstica de la locacin, esto causar que el audio suene encajonado y fuera del eje del micrfono. Por ello,
en estas situaciones donde la distancia es un factor deben usarse micrfonos super o hiper-cardioide. De
la misma forma como el ojo ( en realidad el cerebro) ve selectivamente y no nota un perchero "que sale
desde" la cabeza de alguien en un encuadre, el odo escucha selectivamente y "filtra" la reverberacin
excesiva -- o el ruido de fondo -- en una habitacin que hara difcil de entender las palabras.

Acstica

Siempre que un cuarto tenga paredes lisas y paralelas, continuas o pisos sin alfombra, la
reverberacin (ecos de las paredes) puede convertirse en un problema. La solucin ms simple en estos
casos es mover los micrfonos lo ms cerca al sujeto; pero esto no siempre es posible. Otras soluciones
podran ser el uso de micrfonos direccionales, agregar materiales absorbentes en las paredes, o ubicar
objetos en la escena que absorban o rompan los sonidos reflejados. La solucin ms rpida, sobre todo en
locacin, es utilizar un micrfono muy direccional a un extremo de una caa (fishpole) y sostenerlo fuera
del encuadre de la cmara. Como su nombre sugiere, una caa (fishpole) consiste en una barra extensible
con un micrfono montado en uno de sus extremos. Un operador con un audfono (para monitorear
claramente el registro) dirige el micrfono acorde a las tomas y la posicin del talento. Se usan
generalmente micrfonos supercardioide y hipercardioide montados en un dispositivo de suspensin
llamado shock mount.


Micrfono boom

En estudio se usa un mtodo diferente y la simple caa se transmuta en una categora mucho ms
grande llamada micrfono de boom. Los micrfonos de boom pueden ir desde una jirafa pequea
(bsicamente una caa sobre un trpode con ruedas) a un boom mvil (que pesa varios cientos de kilos,
requiere dos personas para operarlo y puede extender el micrfono a una distancia de 10 o ms metros).
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 15/65
Los booms ms grandes tienen una plataforma central controlada hidrulicamente donde se sientan los
operadores y miran la escena en un monitor de televisin mientras controlan cosas tales como:

El movimiento de izquierda y derecha (balance) del brazo del boom.
La extensin del boom (alcance del brazo).
Paneo a derecha o Izquierda del micrfono atado.
Inclinacin vertical del micrfono.


Micrfonos suspendidos

A veces usted puede manejrselas sin un boom, sobre todo si el talento se limita a un rea pequea.
En este caso pudiera suspender un micrfono (o varios) sobre el rea de actuacin fijndolo a un tubo
fuera del encuadre ms abierto de cmara. La desventaja de este mtodo es que los micrfonos no pueden
moverse durante la produccin. Por supuesto, la calidad del audio variar con la posicin de los actores
en relacin a los micrfonos. Los micrfonos de boom y los micrfonos suspendidos deben evaluarse con
las luces del estudio encendidas para asegurar que no proyecten sombras visibles en el fondo o en el set.

Micrfonos ocultos

A veces es posible esconder estratgicamente un micrfono donde el talento se ubicar y fuera de la
vista de la cmara. Esto elimina la necesidad de utilizar micrfonos de mano y los problemas que
ocasionan los cables. Los micrfonos se colocan detrs de un elemento de utilera o incluso se esconden
en la decoracin de una mesa como en un jarrn de flores. Cuando coloque los micrfonos tenga presente
el efecto de proximidad discutido en un mdulo anterior. Usted puede encontrarse durante la edicin
que los sonidos captados por diferentes micrfonos a diferentes distancias no se pueden combinar sin
crear diferencias molestas en la calidad del sonido. Cuando se usan varios micrfonos en un set, cada
micrfono que no se est usando en un momento en particular debe apagarse para evitar la cancelacin
de fases que degrada el sonido.

3.4.4. Altavoces


El altavoz es el ltimo eslabn en la cadena de audio. Transforma la energa elctrica que le entrega
la etapa de potencia en energa mecnica, y por ello se le llama transductor. Su funcin es inversa a la de
otro conocido transductor: el micrfono, que transforma las ondas sonoras que capta su membrana
(energa mecnica) en energa elctrica que entrega a la etapa preamplificadora. En principio, la banda de
frecuencias audibles por el odo humano abarcan desde los 16 Hz a los 20 kHz, aunque vara con las
personas segn sus caractersticas fisiolgicas, y tambin vara con la edad. A medida que envejecemos,
perdemos sensibilidad hacia los extremos del rango, sobre todo de las altas frecuencias.




Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 16/65


Podemos representar las ondas sonoras mediante un sistema de ejes cartesianos X-Y donde el eje X
representa el tiempo y el eje Y representa la amplitud o intensidad de esa onda sonora. En el dibujo
representamos una onda senoidal, producida por la vibracin en el aire de una lmina metlica. Como
toda funcin peridica, es decir, que se repite en un mismo intervalo de tiempo, llamamos perodo T al
tiempo empleado por la onda en completar un ciclo completo. A la inversa del perodo se denomina
frecuencia (f = 1/T) y viene dado en ciclos/segundo, hercios (Hz) o sencillamente (s^-1) que son
segundos elevado a menos uno.
El altavoz moderno, tal como lo conocemos, es relativamente reciente. El tipo ms extendido, y el que
ms se utiliza en sistemas hi-fi es el altavoz dinmico.

1.- Cono o diafragma
2.- Campana
3.- Yugo
4.- Imn permanente
5.- Bobina mvil
6.- Araa
7.- Tapa de retencin de polvo
8.- Hilos de conexin de la bobina
9.- Bornes de conexin

La impedancia del altavoz habitualmente es de 4 a 8 ohmios. No confundir la impedancia con la
resistencia. La impedancia es la resistencia que ofrece el altavoz al paso de una seal senoidal de 1 kHz,
mientras que su resistencia es la que mediramos mediante un hmetro entre sus bornas de conexin. l
altavoz moderno parte de las investigaciones de Edgar Villchur, que en 1954 preconiza el uso de cajas
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 17/65
acsticas para extender las frecuencias bajas, encerrando el altavoz en un recinto cerrado. Un ao
despus, la empresa Acoustic Research introduce en el mercado el modelo AR-1W que emplea el
principio de suspensin acstica. Posteriormente, a principios de los aos 60 Neville Thiele publica
"Loudspeakers in Vented Boxes", y junto con Richard Small, ambos ingenieros australianos, establecen los
mtodos de estudio de los altavoces y los recintos o cajas donde se hallan enclavados. El uso de las cajas
bass-reflex (vented box) se inici a principios de los 70 como consecuencia de la aplicacin de las teoras
de Thiele-Small. Todos los instrumentos musicales, y la voz humana, se halla dentro del rango audible, y
ocupa los rangos o regiones del espectro que le corresponden. De todos los instrumentos musicales, el
piano ocupa todo el rango de frecuencias, y no en vano se toma a menudo como elemento de prueba o
muestra de un equipo hi-fi por este motivo.
Para cubrir todo el espectro audible, un slo altavoz no es suficiente. Debido a las caractersticas de
los altavoces, y la tecnologa conocida hoy da, se necesitan al menos dos altavoces o drivers para
reproducir todo el rango de frecuencias audibles con una fidelidad aceptable, de modo que uno se
encargue de las frecuencias ms bajas y el otro de las ms altas. Podemos dividir en mayor nmero de
tramos este rango en tres, o incluso cuatro tramos, y destinar a cada uno de ellos un tipo de altavoz
diferente. A cada uno de estos tramos se denomina va, y as existen altavoces (cajas) de 2, 3 4 vas
dependiendo del nmero de tramos en que se ha dividido el espectro. No tiene por qu coincidir con el
nmero de altavoces que tenga la caja. Podemos poner 2 altavoces para los graves y un altavoz para los
agudos, y ser un sistema de 2 vas con tres altavoces. Atendiendo a la gama de frecuencias que el
altavoz es capaz de reproducir, los altavoces o drivers pueden dividirse en:


woofer (graves)
midrange (medios)
tweeter (agudos)


Pero existen altavoces de otros tipos, tales como subwoofers, midbass, etc., que cubren otros
tramos de frecuencias y que se utilizan en sistemas multiva.


Para poder distribuir correctamente la energa que se entrega a la caja, hay que dividir la seal que llega a
la misma al tipo de seal que cada altavoz requiere. De otra forma estaramos desperdiciando la energa,
o incluso daaramos algn altavoz. Para lograr esto, se recurre al crossover, que es un filtro que deja
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 18/65
pasar cierto rango de frecuencias con ms facilidad que otros. La complejidad de estos sistemas, hace
necesario el estudio de los mismos en captulo aparte.
No todos los altavoces, dentro de la misma gama de potencia, reproducen una misma seal a un
mismo nivel sonoro (SPL). Depende de la sensibilidad del altavoz. La mayora de los altavoces se mueven
en el rango de los 80-100 dB w/m. La unidad w/m nos indica el nivel sonoro del mismo cuando
reproduce 1w de seal de entrada a la distancia de 1 metro del oyente. A mayor sensibilidad del altavoz,
mayor es la sensacin sonora que proporciona. Esta consideracin es de vital importancia a la hora de
elegir los altavoces correctos para un equipo dado. Un amplificador single-ended a triodo, suele ofrecer
una potencia de salida de 5 a 10 watios. Si elegimos unos altavoces con una sensibilidad adecuada, el
nivel sonoro puede ser equivalente a un equipo de 60w con altavoces menos sensibles. Cada 3 dB de
aumento en la sensibilidad, exige la mitad de potencia para ofrecer el mismo nivel sonoro. Ofrece el
mismo nivel sonoro un amplificador de 5w con altavoces de 100 dB/w/m que otro amplificador de 80w
con altavoces de 88 dB/w/m. Por ello es muy importante elegir la sensibilidad de acuerdo al
amplificador. Mi amplificador tiene una potencia de 30w y los altavoces una sensibilidad de 86 dB/w/m.
Si quisiera obtener el mismo SPL con un amplificador de 9w, tendra que poner unos altavoces de 91
dB/w/m. El clculo del incremento en dB es muy sencillo:

esta cantidad la sumamos a los 86 dB/w/m y obtenemos 91 dB/w/m.
Parmetros de Thiele-Small

Gracias a los parmetros Thiele-Small de un altavoz, se puede predecir cual ser la respuesta del
mismo en varias cajas diferentes. Los parmetros ms importantes son los siguientes:

Parmetros de pequea seal:

Frecuencia de resonancia al aire libre del altavoz F(s).- Es la frecuencia del driver cuando
est al aire libre, no ubicado en una caja. Es la frecuencia natural que se puede oir cuando se
golpea suavemente el cono del altavoz. Una F(s) tpica de woofer est en torno a los 20-80
Hz, los midranges se mueven hacia los 300 Hz, y los tweeters tienen F(s) alrededor de 1 kHz.
Normalmente, F(s) coincide con la frecuencia ms baja que el altavoz es capaz de reproducir.

Q total del altavoz Q(ts).- Se calcula mediante la Q(ms) y Q(es) que son las Q mecnica y Q
elctrica del driver correspondiente. Indica cmo de "aguda" es la grfica de respuesta de
frecuencia del altavoz cuando se sita en una caja cerrada. Cuanto mayor es Q(ts), la grfica
de respuesta presentar un pico mayor que si Q(ts) fuera menor.

Volumen equivalente de suspensin del altavoz V(as).- . Indica el volumen de aire que
tendra una rigidez equivalente a la de la suspensin del altavoz cuando se comprime con
un pistn cuyo tamao es igual al del cono del altavoz.

Parmetros de gran seal:

Potencia mxima, trmicamente limitada P(t).- Representa la mxima potencia que se puede
aplicar a un altavoz de forma continua sin que se llegue a deteriorar debido a
sobrecalentamiento excesivo.

Potencia mxima, mecnicamente limitada P(er).- Este parmetro no puede determinarse
hasta que el altavoz no se ponga en una caja y depende no solamente de la caja, sino tambin
de la frecuencia de la seal que inyectemos. Un sistema podra manejar perfectamente una
seal de 300 Hz, pero podra estar muy limitado para manejar otra de 50 Hz, debido a una
excesiva excursin del cono del altavoz.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 19/65
Lmite de excursin lineal X(max).- Indica hasta donde puede desplazarse el cono del
altavoz antes de que la bobina salga fuera del entrehierro magntico (magnetic gap). Si el
cono se desplaza ms de lo debido, se incrementa la distorsin del sistema.

rea del pistn S(D).- Es el rea efectiva del cono del altavoz, medido desde el dimetro
medio (punto medio) del surround, que es ese material muy blando que une el cono con el
aro de chapa exterior del altavoz.

Volumen de desplazamiento V(D).- Multiplicando el rea del pistn S(D) por la excursin
mxima X(max) se obtiene el volumen de desplazamiento del altavoz V(D) y es un
indicativo de la ms baja frecuencia que el altavoz puede reproducir

Sistemas de altavoces

La adquisicin de unos altavoces es fundamental para disfrutar de las excelencias que ofrece nuestro
equipo de audio. Si queremos disfrutar al mximo, la incorporacin de unos altavoces de calidad es casi
obligada, aunque claro, existen situaciones y soluciones intermedias. Como solucin econmica, bastara
con adquirir un par de canales, incluso si as lo deseamos autoamplificados. Pero claro, debido a la
cobertura que est adquiriendo la reproduccin de msica en formato MP3 o el vdeo MPEG-2 (DVD)
para la mayora de los usuarios, este sistema se quedara algo corto. Para ello, sobre la base que hemos
comentado, existen alternativas tales como ampliar el nmero de canales de salida, la inclusin de un
subwoofer, o la posibilidad de emplear diferentes efectos digitales para mejorar la calidad del sonido.

Una de las opciones que ms se est utilizando (principalmente en juegos de alto nivel y
reproduccin DVD), es aquel que se conoce como sonido envolvente o 3D. Para lograrlo lo ms habitual
es aumentar el nmero de altavoces hasta 4 (2 delanteros y 2 traseros), para que de este modo (siempre y
cuando estos estn correctamente situados), se logre un mayor realismo en el audio y podamos "vivir" las
imgenes que vemos en nuestro monitor como si nos encontrsemos dentro de la propia escena. De ese
modo todos los sonidos que supuestamente provienen de los laterales o de la parte de atrs de la imagen
del monitor, nosotros la escucharemos en 3 dimensiones de la misma manera en la que se desarrolla la
accin.

De todos modos tampoco es necesario que para lograr un sonido envolvente 3D debamos tener
instalados 4 altavoces y un subwoofer, ya que existen alternativas que con tan slo dos altavoces,
logramos efectos 3D por un precio ms reducido. Este sistema, dependiendo de la compaa que lo
monte, se conoce como Virtual Surround, Virtual Dolby, CMSS, etc. En muchos casos esta simulacin la
realiza va hardware la tarjeta de sonido, aunque tambin existen modelos a altavoces 5.1 que tambin
cuentan con capacidad para ello. El sentido de esto ltimo se basa en el caso de que conectemos el sistema
5.1 en un equipo con salida estreo convencional (un reproductor MP3, un walkman, etc). Esta simulacin
funciona por medio de retardos de tiempo en la reproduccin de voces por un lado, efectos por otro, etc;
pero presenta un serio inconveniente, y es que el usuario debe colocarse justo en el centro de ambos
altavoces y no moverse para no perder el efecto 3D.

Sistemas 5.1

Una de las caractersticas que ms comnmente encontramos entre las especificaciones de los
altavoces de gama media / alta que se venden en la actualidad, es aquella conocida como 5.1. Como su
propio nombre indica, este es un sistema compuesto por 5 canales independientes adems de otro no
direccionado o salida dedicada al LFE (efecto de baja frecuencia) para el subwoofer. Aprovechando las
capacidades de calidad que 5.1 ofrece, los juegos y pelculas en DVD ya incluyen una serie de estndares
de audio entre los que destacaremos el Dolby Digital y el DTS (Digital Surround), que son los ms
utilizados. Para dar una mayor eficacia a los sistemas de altavoces 5.1, Dolby Digital utiliza un reparto de
los bits que componen el audio en los canales de manera individual. Tal y como su nombre indica, Dolby
Digital se trata de una especificacin completamente digital que funciona con un mximo de 5.1 canales
de informacin total. Estos 5 canales funcionan con un ancho de banda completa que va desde 20 Hz
hasta 20 Khz. De todos modos tiene soporte para una amplia gama de especificaciones entre las que se
incluyen opciones desde mono a seis canales. Procedamos a describir cada uno de estos altavoces:
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 20/65


ALTAVOCES FRONTALES: los canales izquierdo y derecho (estreo) correspondientes a los
altavoces frontales crean la anchura de la imagen y son los que reproducirn la msica, la
ambientacin y los efectos especiales como los encuadres o las tomas panormicas de coches y
trenes a travs de la pantalla, los efectos que se producen entre bastidores, telfonos que suenan
o perros que ladran. Junto con el canal surround su propsito es crear una atmsfera autntica,
real y totalmente envolvente. Sus caractersticas principales y posicionamiento son:
o Son los encargados de llevar el peso de la msica y los efectos de sonido, as que ambos
deberan tener la misma capacidad de respuesta.
o Deberan estar alineados por delante del altavoz central o a su misma altura, pero jams
detrs de este.
o Deberan estar distribuidos formando un ngulo de 45
o
respecto a la posicin del oyente.
o Es recomendable que estn a la misma altura que el altavoz central

ALTAVOZ CENTRAL: este canal se emplea principalmente para acoplar la accin principal y los
dilogos a la pantalla de televisin o de cine. De este modo, donde quiera que est sentado el
espectador estos sonidos le ayudan a mantener un punto focal relevante de la imagen. Los dilogos
de los actores proceden de forma convincente de su fuente origen, centralizando todos los sonidos
relacionados con la accin principal que se est desarrollando en la pantalla. Si no existe la
posibilidad de un altavoz central, se puede usar el Phantom Mode, segn el cual la seal se
reproduce usando los altavoces izquierdo y derecho. Sus caractersticas principales y
posicionamiento son:
o El altavoz central debera ser idntico a los altavoces laterales (modo wide).
o Tambin podra usarse un altavoz central ms pequeo (modo normal), con lo que se
trasladara el canal de bajos a los altavoces frontales.
o Si fuera necesario, podra pasarse sin un altavoz central (modo fantasma), pero solamente
en el caso en que el oyente estuviera situado en el centro de la sala.
o Debera estar alineado por detrs de los altavoces frontales o a su misma altura, pero
nunca por delante de estos.
o Debera estar elevado a la altura de los tweeters (altavoz de frecuencias altas agudas) de
los frontales.
o No puede estar ms lejos de 60cm del televisor y debera estar protegido magnticamente
para evitar la distorsin de la imagen.

ALTAVOCES SURROUND: el canal surround(envolvente) se utiliza principalmente para los
efectos atmosfricos relacionados con la imagen que aparece en pantalla (tormentas, multitudes,
ruido de trfico, sonidos de la selva, etc.). El papel desempeado por el canal envolvente es aadir
profundidad y sumergir al espectador en la accin que se est representando. Para conseguir un
efecto totalmente envolvente, algunos de estos sonidos tambin pueden reproducirse en los
altavoces centrales. Todos los efectos especiales de las pelculas de accin (aviones, explosiones,
balas que rebotan etc.) se reproducen por este canal. Sus caractersticas principales y
posicionamiento son:
o No necesitan reproducir frecuencias bajas, por lo que pueden ser pequeos.
o Su colocacin es crucial para conseguir una buena sensacin envolvente. A ser posible
deberan colocarse a unos 60-90cm por encima del oyente a ambos lados del rea de
escucha, y no detrs. Si esto no fuera posible, algunas soluciones podran ser:
Colocarlos en la pared trasera, ya sea enfocndose uno a otro, enfocando hacia el
centro de la sala o dirigindolos a las paredes trasera y lateral.
Si no hubiera paredes adyacentes, los altavoces surround pueden colocarse en
soportes elevados, encarndose el uno al otro, o a ambos lados o detrs del ngulo
de visin enfocados hacia arriba.

ALTAVOZ SUBWOOFER: es una canal diferenciado para frecuencias ms bajas. Este canal es el
resultado de aplicar un filtro pasa bajos a la informacin de los canales frontales. De este modo, por
el altavoz subwoofer se reproducirn los graves amplificados de la seal principal, obtenindose
una sensacin ms envolvente de la msica o los efectos especiales. Sus caractersticas principales
y posicionamiento son:
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 21/65
o Algunos modelos llevan incorporado un amplificador, mientras que otros estn diseados
para reproducir la seal procedente de un amplificador externo.
o Su colocacin en la sala es indiferente, ya que debido a la amplitud de ondas que produce,
no requiere ningn tipo de direccionalidad para crear una sensacin envolvente.

En una sala de cine, los altavoces principales (izquierdo, centro y derecho) y el subwoofer se
colocan detrs de la pantalla. Tambin existen varios altavoces surround derechos e izquierdos
dispuestos en las paredes laterales y del fondo de la sala. Todos los altavoces estn conectados a
amplificadores de potencia.

3.5. Digitalizacin del sonido.

Nosotros no percibimos todas las ondas que se propagan a nuestro alrededor. Podemos
comprobar que animales como perros y gatos son capaces de or frecuencias que nosotros no
alcanzamos. El ser humano es capaz de percibir, por trmino medio, los sonidos que hay en el espectro
sonoro desde los 20 Hz a los 20 KHz; es decir, que el sonido ms grave que podemos percibir es el que
produce una cuerda al oscilar 20 veces por segundo, mientras que el ms agudo es el que produce la
misma cuerda si vibrase 20.000 veces por segundo. Por tanto, si queremos construir un sistema que
grabe el sonido que nos rodea, no nos interesa que lo grabe todo, sino slo aquellas porciones del
espectro de frecuencias que podemos percibir.

Pero cmo podemos grabar el sonido?. Hasta hace pocos aos se utilizaban procedimientos
analgicos, que trataban de almacenar en un medio fsico las variaciones de intensidad que producen la
suma de frecuencias que llegan a una membrana. Esa membrana se comporta de una forma parecida a
nuestro tmpano, con la diferencia de que en lugar de generar impulsos nerviosos, genera variaciones
en una corriente elctrica que quedan registradas en una cinta magntica. Este sistema de grabacin
tiene una ventaja y muchos inconvenientes. La ventaja es que es analgico, es decir, que produce un
registro cuya intensidad es proporcional a la seal que le llega de forma continua. El sonido analgico
no tiene porqu ser peor que el digital, de hecho, en condiciones ptimas, es mejor. Los principales
inconvenientes que presenta son, esencialmente, todos los que se desprenden del ruido que aparece en
el interior de los circuitos elctricos y del que genera el rozamiento de los mecanismos: roce de los
cabezales contra la cinta, de los motores, del mecanismo de arrastre, de la deformacin de la cinta, etc.
La calidad de la seal analgica se degrada en la generacin de copias y con la reproduccin repetida.
Por otra parte, tampoco nos ofrece las posibilidades de edicin del sonido digital.

La grabacin digital no obtiene un registro de estas variaciones de frecuencia, sino que las analiza
para extraer su descripcin detallada. Como lo que llega a la membrana es una suma de frecuencias,
estudiamos esta suma como una sola frecuencia, que tiene dos propiedades fundamentales: frecuencia y
amplitud. Cul es la frecuencia de muestreo necesaria para efectuar un buen registro?. La respuesta es
sencilla: el doble de la mxima frecuencia de la seal original que queremos grabar si seguimos el
teorema de Nyquist. As, si lo que queremos es hacer un registro perfectamente fiel de todo el sonido
que nos llega perceptible por nuestro odo (20Hz 20KHz), tenemos que tomar muestras al doble de la
frecuencia mxima, 20 KHz. As, esta frecuencia de muestreo debe ser de unos 44 KHz.

Ahora bien, cul es la diferencia mnima que tenemos que registrar en la amplitud de las ondas?
Se ha demostrado, mediante experimentos de laboratorio, que el ser humano puede diferenciar
bastantes matices entre un sonido y otro. Desde luego, son ms de los 64.000 intervalos que proporciona
un muestreo de 16 bits (2
16
=65.536), pero esta cantidad de muestras es suficiente para satisfacer a la
mayora de los mortales, y es una cifra cmoda para los ordenadores, ya que se trata de la mitad de una
palabra de 32 bits.

Como veremos a continuacin, la digitalizacin del sonido consiste en convertir una seal
analgica en una secuencia digital y para ello se llevan a cabo dos procesos:
Muestreo o discretizacin temporal: medida del valor de la seal original a intervalos regulares de
tiempo.
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 22/65
Cuantizacin o discretizacin de la amplitud: aproximacin de cada valor medido al valor entero ms
prximo.

El sonido, para su manejo en un sistema multimedia, ha de adquirirse por medios electrnicos. El
primer elemento de la cadena es el micrfono, que convierte las variaciones de presin del medio en
seales elctricas. stas son despus amplificadas para que alcancen los niveles adecuados para atacar
las siguientes etapas del proceso.

La digitalizacin consiste en convertir los valores de intensidad de la seal en valores numricos
que la representen. Para ello se utilizan circuitos convertidores de analgico a digital ("ANALOG TO
DIGITAL CONVERTER", o ADC) que llevan a cabo una conversin o lectura cada cierto tiempo. A cada
lectura se la llama muestra y el nmero de muestras que se toman por segundo es la frecuencia de
muestreo. Lgicamente, en algn momento esa misma seal o una versin mezclada, procesada o
alterada de ella, ha de volcarse de nuevo al exterior en forma de sonido. Para ello se usa un convertidor
de digital a analgico ("DIGITAL TO ANALOG CONVERTER" o DAC) conectado a un amplificador de
salida y a un altavoz.


Figura 8. Proceso completo de digitalizacin del sonido.

La precisin con la que el ADC lee los valores de la seal, es decir, el nmero de bits de la
representacin digital que obtiene, o tamao de palabra del convertidor, tiene una repercusin directa
en la calidad de la seal. En la siguiente figura se puede apreciar claramente este efecto.


Figura 9. Efecto del tamao de palabra del convertidor en la calidad de la seal obtenida.

La frecuencia de muestreo tambin tiene una influencia clave en la exactitud con la que la seal se
ve representada en su forma digital, y por tanto en la fidelidad con la que se reproducir despus. Esto
se aprecia en la figura 10, en la que se puede comprobar el efecto de deformacin "aliasing" que aparece
al muestrear una seal a una frecuencia menor al doble de su frecuencia. Efectivamente, segn se
formaliza en el Teorema de Nyquist, la frecuencia de muestreo debe ser al menos doble que la mxima
frecuencia de la seal que se pretenda conservar. Por tanto, para obtener una sensacin sonora fiel a la
que se tendra frente al sonido original, la frecuencia de muestreo ha de ser superior a 40.000 muestras
por segundo.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 23/65

Figura 10. Efecto de la frecuencia de muestreo del convertidor en la calidad de la seal obtenida.

3.6. Edicin de sonido digital.

Una de las mayores ventajas del sonido digital es la enorme flexibilidad que ofrece a la hora de
editar el sonido. Una vez digitalizado el sonido y convertido en una secuencia de nmeros, los
programas de edicin de sonido digital permiten aplicar operaciones matemticas a dichos nmeros
para hacer todo tipo de modificaciones en el sonido original.

Se pueden clasificar las tcnicas de edicin de sonido digital atendiendo al aspecto del sonido que
se modifica. Las propiedades del sonido que podemos modificar y las operaciones que podemos
realizar sobre las mismas son:

MODIFICACIN DE LA DIMENSIN TEMPORAL:
o Cortar, copiar y pegar: lo que en la edicin de sonido analgico se haca cortando y
pegando fragmentos de cinta magntica, se lleva a cabo ahora de manera sencilla
con tcnicas de manipulacin directa. Para evitar ruidos en las transiciones,
conviene seleccionar fragmentos con comienzo y final de valor nulo.
o Cambio de sentido: comenzar la reproduccin de un sonido por el final y terminar
por el principio.
o Eliminar silencios: se define una amplitud por debajo de la cual el sonido se
considera silencio, y se eliminan esos fragmentos. Puede servir para quitar las
porciones inicial y final de una grabacin, as como para eliminar las porciones
de silencio entre sonidos.
o Insertar silencios: de una duracin determinada a partir de la posicin del cursor.

MODIFICACIN DE LA AMPLITUD MEDIANTE OPERACIONES DE
MULTIPLICACIN:
o Modificar la ganancia: multiplicar las muestras por un nmero real. Al multiplicar
por un valor entre 0 y 1 el nivel sonoro disminuye y si el valor es mayor que 1,
aumenta.
o Silenciar: multiplicar por cero las muestras de la zona seleccionada.
o Umbral de ruido (noise gate): silencia las muestras por debajo de un determinado
valor umbral. Permite eliminar el ruido de fondo, pero solo en aquellas porciones
en las que no hay otros sonidos. Tambin consigue que los ataques y
decaimientos de los sonidos sean ms bruscos.
o Normalizar: es un caso particular de modificacin de la ganancia que obtiene la
mxima amplitud posible sin que se produzca distorsin. Para ello, se recorre
todo el fragmento de sonido y se registra la mayor amplitud de onda. Se calcula
el cociente entre la mayor amplitud de onda posible y la mayor amplitud
registrada. Finalmente, se multiplican todas las muestras por dicho cociente.
o Aplicacin de envolventes: las envolventes son curvas que determinan la evolucin
temporal de la amplitud. Una envolvente puede especificar, por ejemplo, un
aumento gradual del volumen al principio de un sonido, y una disminucin
brusca del mismo al final.
o Fundido de entrada y de salida (fade in y fade out): son dos envolventes muy
utilizadas. El fundido de entrada tiene valor inicial cero, y valor final uno y se
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 24/65
usa para darle un comienzo progresivo al sonido. El fundido de salida tiene un
valor inicial 1 y valor final 0 y sirve para darle un final progresivo al sonido.
o Modulacin de la amplitud con una seal peridica: El efecto sonoro que se consigue
es una variacin cclica del volumen (trmolo)
o Inversin: hacer una reflexin de las muestras con respecto al eje horizontal, con
lo que los valores positivos pasan a ser negativos y viceversa (cambio de fase). Se
trata de un efecto sutil que se percibe mejor cuando se aplica a uno de los dos
canales de un sonido estreo.

MODIFICACIN DE LA AMPLITUD MEDIANTE OPERACIONES DE SUMA:
o Mezclar: se suman los valores de dos fragmentos de sonido.
o Desplazamiento del cero (DC Bias Offset): algunas tarjetas de sonido tienen un
error constante al digitalizar, con lo que el cero queda desplazado. Si se graba un
fragmento de silencio, la lnea horizontal queda por debajo o por encima del eje
horizontal. Hay programas de edicin de sonido que pueden detectar y corregir
este error.

MODIFICACIN DE LA FRECUENCIA:
o Cambio de la frecuencia de reproduccin: si un sonido muestreado a 44,1 KHz. se
reproduce a 22,05 KHz. sonar una octava ms grave y durar el doble de
tiempo. El fichero original no se modifica.
o Remuestreo: a partir de las muestras de un sonido digital, aumentar o disminuir
su frecuencia de muestreo, aadiendo o eliminando muestras respectivamente.
Para pasar de 44,1 KHz. a 22,05 KHz. se elimina una muestra de cada dos. Antes
de remuestrear a una frecuencia ms baja, conviene filtrar el sonido original y
eliminar las frecuencias superiores a la mitad de la nueva frecuencia de
muestreo. Para pasar de 22,05 KHz. 44,1 KHz., se crea por interpolacin una
nueva muestra entre cada dos. Hay que aclarar que este proceso no mejora la
calidad del sonido, pero puede ser necesario por razones de compatibilidad entre
programas o ficheros de sonido.
o Transposicin: es un trmino musical que significa subir o bajar la altura de una
meloda uno o ms semitonos. La transposicin supone una variacin de la
duracin del sonido: dura ms cuanto ms grave, y menos cuanto ms agudo.
o El pitch bend o modificacin continua de la frecuencia: es similar a la transposicin,
pero en vez de realizarse en intervalos discretos (semitonos) se lleva a cabo de
forma continua. Se puede definir la evolucin de la frecuencia en el tiempo
mediante una envolvente. El efecto musical as obtenido se llama glissando y
equivale a desplazar la mano izquierda sobre el mstil de una guitarra mientras
suena una cuerda.


3.7. El estndar M.I.D.I.

El MIDI (Musical Instrument Digital Interface) es un protocolo para comunicar entre s
instrumentos musicales electrnicos. Es un mtodo para describir la msica mediante comandos, y es
por lo tanto mucho ms compacto que su equivalente en sonido digitalizado.

Este protocolo de comunicaciones de datos permite a un instrumento musical controlar a otro. El
instrumento controlador recibe el nombre de MAESTRO o MASTER y el instrumento o instrumentos
controlados recibe el nombre de ESCLAVOS.

Tambin es posible desde un ordenador controlar la mayora de los instrumentos musicales
electrnicos y capturar y almacenar la informacin que genera la ejecucin de un intrprete sobre un
instrumento.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 25/65

El estndar MIDI data del ao 1983 y fue tal su xito que se mantiene con pocos cambios desde
entonces. Su meta inicial era conseguir que desde un teclado central se pudieran controlar distintos
instrumentos musicales electrnicos interconectados, pero con el uso de ordenadores, el MIDI se
convierte adems en una herramienta para distintas aplicaciones musicales: ayuda a la composicin,
docencia, edicin de partituras...

Podemos distinguir tres aspectos de este estndar de comunicacin:
Las especificaciones fsicas: conectores, tensiones, etc.
Las especificaciones de datos: notas.
Las especificaciones de control: cambios de sonido, velocidad, frecuencia, etc.

3.7.1. Descripcin del estndar M.I.D.I.

El estndar M.I.D.I. es un protocolo de comunicaciones serie (similar al RS-232) asncrono. Su
velocidad de transmisin es de 31,25 Kbaudios. Dentro de este estndar podemos diferenciar las
especificaciones que se describen en los aparatados siguientes.

3.7.2. Interfaz M.I.D.I.

La interfaz es el dispositivo electrnico que se encarga de enviar y recibir informacin M.I.D.I.
hacia y desde otros dispositivos. El interfaz M.I.D.I. transmite informacin digital por una lnea y la
recibe por otra. Cada dispositivo debe contar con una interfaz M.I.D.I.

El conector que recibe informacin, recibe el nombre de M.I.D.I. IN. El que transmite la
informacin recibe el nombre de M.I.D.I. OUT y el encargado de retransmitir la informacin que pasa
por el M.D.I. IN se llama M.I.D.I THRU. Este ltimo conector se utiliza para conectar ms de dos
dispositivos M.I.D.I.

Los tres son conectores DIN hembra de 5 pines (figura 14). Los cables MIDI siempre conectan el
MIDI OUT o el MIDI THRU de un dispositivo con el MIDI IN de otro, y no deben tener una longitud
superior a 15 metros.


Figura 14. Formato de los conectores M.I.D.I.

3.7.3. Los canales M.I.D.I.

El sistema M.I.D.I. estructura la informacin en 16 canales diferentes simultneos, que permiten
dirigir los mensajes individuales a 16 instrumentos distintos. Cada mensaje lleva su nmero de canal al
que afecta, de manera que no hay confusin posible.
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 26/65

Cada canal MIDI permite implementar un instrumento virtual diferente. En un sintetizador hay
que distinguir 2 conceptos:

Capacidad polifnica: numero mximo de notas que puede reproducir simultneamente.
Capacidad multitmbrica: numero mximo de instrumentos musicales diferentes que se
pueden reproducir simultneamente.

Los sintetizadores MIDI suelen tener una polifona de 32 ms notas, y una capacidad
multitmbrica de hasta 16 (lmite determinado por los 16 canales de estndar MIDI). Los instrumentos
que puede reproducir un sintetizador MIDI se llaman tambin programas. Para activar un
instrumento determinado, basta con mandar un mensaje de Program Change junto con el nmero de
instrumento que se desee. Si el sintetizador es multitmbrico, se pueden mandar varios mensajes de
Program Change, cada uno a un canal MIDI diferente. Inicialmente, los nmeros de los instrumentos en
los sintetizadores MIDI no estaban estandarizados, por lo que al reproducir un tema compuesto en otro
sintetizador, un piano poda orse como una flauta. Para resolver este problema, y como complemento
del estndar MIDI 1.0, surgi en 1990 el General MIDI (GM), que entre otros aspectos incluye:
Polifona mnima de 24 notas.
Capacidad multitmbrica de 16 canales.
Lista estndar de 128 instrumentos o programas, numerados del 0 al 127, o del 1 al 128,
segn los fabricantes.
Caja de ritmos en el canal 10 con una lista estndar de 59 sonidos de percusin.

El estndar General MIDI no dice nada sobre la calidad de la simulacin de los instrumentos, por
lo que sta puede variar enormemente de un sintetizador a otro. Algunos fabricantes han creado
extensiones del General MIDI , como el General Standard de Roland o el XG de Yamaha.

3.7.4. Conexionados M.I.D.I.

Las diferentes conexiones que nos podemos encontrar entre elementos M.I.D.I. son las siguientes:

CONEXIONADO BSICO: se necesitan por lo menos dos teclados, uno que transmita
informacin (MAESTRO) y otro que la reciba (ESCLAVO). Este tipo de conexin se
realiza utilizando los conectores MIDI IN y MIDI OUT.
CONEXIONADO ENCADENADO DAISY O SERIE: en este tipo de conexin se hace uso
del conector MIDI THRU.
CONEXIONADO EN PARALELO: se necesita un elemento llamado Caja de Enlace
Directo. Consiste en una caja derivadora con varias entradas y salidas MIDI. De esta
forma, se pueden alimentar los teclados o elementos esclavos en paralelo.

3.7.5. Mensajes M.I.D.I.

Aunque no es necesario conocer en profundidad todos los mensajes MIDI unas nociones
generales sirven para utilizar con ms aprovechamiento los programas secuenciadores. Un mensaje
MIDI est formado por:

Un byte de estatus que tiene siempre el bit ms significativo a 1. Los tres siguientes bits
codifican el tipo de mensaje, y los cuatro bits menos significativos codifican el canal.
Uno o dos bytes de datos, segn el tipo de mensaje, con el bit ms significativo siempre a
cero.

En esta tabla se describen los ocho tipos de mensajes MIDI:



Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 27/65
N Nombre Estatus (hex.) Datos 1 Datos 2
1 Note On 8c Altura Velocidad
2 Note Off 9c Altura Velocidad
3 Polyphonic Aftertouch Ac Altura Presin
4 Control Change Bc Tipo de Control Intensidad
5 Channel Aftertouch Cc Presin ---
6 Pitch Bend Dc MSByte LSByte
7 Program Change Ec Programa ---
8 System Message Fc ---

Los siete primeros se llaman genricamente mensajes de canal, porque actan sobre un nico
canal a la vez (el codificado en los cuatro bits menos significativos del byte de estatus. Los mensajes de
sistema tienen una estructura diferente y no se aplican a ningn canal en concreto.

Un dispositivo MIDI no tiene porqu generar o entender todos los mensajes. Cuando un
dispositivo MIDI recibe un mensaje que no entiende, simplemente lo ignora, y lo reenva por el puerto
MIDI THRU. A continuacin se describen las caractersticas ms importantes de los mensajes de canal:

Note On: se genera al pulsar una tecla en el teclado, e indica que debe comenzar la
reproduccin de esa nota. El primer byte de datos indica la altura, desde 0 (la nota ms
grave) hasta 127 (la ms aguda). As pues el estndar MIDI tiene una extensin de ms de
10 octavas (un piano tiene poco ms de 7). La nota 60 corresponde al Do central del
piano. El segundo byte de datos indica la velocidad de ataque, que depende de la fuerza
con la que se pulsa la tecla. Este parmetro se asocia normalmente con la intensidad
sonora. La velocidad cero se usa para desactivar la nota si est sonando. Los teclados que
no detectan la velocidad de ataque generan siempre un valor de velocidad de 64.

Note Off: sirve para desactivar una nota que est sonando, y se genera al soltar una tecla
del teclado. El primer byte de datos contiene la nota soltada, y el segundo la velocidad de
liberacin, pero se usa ms el mensaje Note On con velocidad cero.

Polyphonic Aftertouch: algunos teclados detectan la presin ejercida sobre cada tecla en
cada momento. Cuando se produce un cambio de presin se produce este mensaje. En el
primer byte de datos se almacena la nota, y en el segundo, la presin. El sintetizador
suele utilizar el parmetro de presin para modificar el nivel sonoro y el timbre. Como
este mensaje se genera en grandes cantidades (varias decenas por segundo por cada tecla
pulsada) es habitual poder desactivarlo para evitar exceso de trfico.

Channel Aftertouch: es una versin simplificada del Polyphonic Aftertouch. En vez de
generar un mensaje por cada nota, se genera un solo mensaje para todo el canal, cuyo
valor es la mayor presin de todas las detectadas.

Pitch Bend: con este mensaje se desafinan momentneamente las notas ( 2 semitonos
segn el estndar General MIDI). El control que suele generar estos mensajes (varias
decenas por segundo) en los teclados es una rueda giratoria que vuelve sola a su posicin
inicial. Los dos bytes de datos definen un valor de 14 bits (ente 8192 y 8191) que
especifica la magnitud de la desafinacin.

Program Change: Los distintos sonidos o instrumentos que puede reproducir un
sintetizador se denominan parches, programas o voces. Este mensaje se puede generar
desde botones en el teclado o desde el propio programa secuenciador. El nico byte de
datos indica el programa o instrumento (de 0 a 127). Cuando un sintetizador tiene ms de
128 programas, stos se agrupan en bancos de hasta 128 programas cada uno. Para
acceder a todos estos sonidos se utiliza un mensaje de Control Change llamado Cambio
de Banco.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 28/65
Control Change: Es un tipo de mensaje de canal muy flexible ya que engloba 128 posibles
mensajes diferentes (no todos estn asignados), para modificar distintos aspectos del
sonido. El primer byte de datos indica el tipo de control (modulacin, volumen, etc.) y el
segundo byte de datos, el valor asignado a dicho control. Algunos de los tipos de control
ms usados por este mensaje son:
o Tipo 0 (cambio de banco): si un sintetizador tiene varios bancos de sonido, con este
mensaje se puede acceder a todos ellos. El segundo byte de datos contiene el
nmero de banco deseado. Este mensaje suele ir seguido de otro de cambio de
programa. En algunos sintetizadores, el cambio de banco se hace con Control
Change 32.
o Tipo 1 (modulacin): este mensaje se suele mandar con la segunda de las ruedas de
los teclados (la primera era el pitch bend). Su efecto suele ser programable, y se
puede usar para modular la amplitud (trmolo), la frecuencia (vibrato), la
frecuencia de corte del filtro...
o Tipo 7 (volumen): controla el volumen del canal en su conjunto, como un
mezclador.
o Tipo 10 (panorama): un valor de 0 hace que el sonido se emita por el altavoz
izquierdo, 64 por los dos y 127 por el derecho. Valores intermedios generan
mezclas intermedias entre el altavoz izquierdo y derecho.
o Tipo 121 a 127: son unos mensajes especiales denominados de modo. El 121
devuelve todos los controles a sus valores por defecto. El 123 apaga todas las
notas, lo que resulta til si alguna sigue sonando por haber perdido su mensaje
Note Off.
o Existen otros controles denominados genricamente RPN (Registered Parameter
Number) y NRPN (Non-Registered Parameter Number). En ellos se combinan
varios mensajes de Control Change para modificar parmetros especficos de un
sintetizador. Estos mensajes no estn estandarizados, y exigen consultar la
documentacin de cada sintetizador.

Los mensajes de sistema no son especficos de canal y afectan al comportamiento global del
dispositivo que los recibe. Su byte de estatus comienza por 1111 y los otros cuatro bits definen el tipo de
mensaje de sistema. Son 16 en total y se clasifican en tres grupos:

Comunes: suelen enviarse a secuenciadores, para situarlos en una posicin determinada
de una pieza. El ms importante es el MTC (Midi Time Code), que se usa para
sincronizar secuenciadores con otros dispositivos.
De tiempo real: sirven para sincronizar dispositivos MIDI que normalmente funcionan
cada uno con su reloj interno. Se puede configurar uno como maestro y otro como
esclavo y mandar seales de sincronizacin.
Exclusivos: son mensajes especficos de cada fabricante para controlar aspectos
particulares del hardware de sus modelos.

En la figura siguiente podemos ver un esquema de los diferentes mensajes M.I.D.I.


Figura 15. Mensajes M.I.D.I.
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 29/65

3.7.6. Dispositivos usados en M.I.D.I.

Los diferentes dispositivos que se pueden usar en una configuracin M.I.D.I. son los siguientes:

SINTETIZADORES:
Formados por dos partes claramente diferenciables: TECLADO MUSICAL y MDULO
GENERADOR DE SONIDOS.
Habitualmente el mdulo generador de sonidos es capaz de responder
simultneamente a varios canales M.I.D.I. (hasta 16, o incluso 32 en aparatos con dos
conectores M.I.D.I. IN).

MDULO DE SONIDOS:
Es la parte encargada de generar los sonidos. Puede presentarse integrada con un
teclado musical, en cuyo caso se llama sintetizador o por separado.
Entre sus caractersticas ms importantes son: nmero de notas que pueden sonar
simultneamente, nmero de sonidos almacenados de fbrica (presets), nmero de
sonidos editables por el usuario, etc.
Posibilidad de aadir efectos al sonido (eco, coro, etc).

TECLADO MAESTRO:
Si quitamos del sintetizador la parte de generacin de sonido (el mdulo), obtenemos
un teclado maestro. Sin embargo, bajo este nombre se suele denominar a un equipo
con ms posibilidades de control:
o split: particin del teclado en varias zonas para controlar distintos canales
M.I.D.I. simultaneamente.
o velocity switch: igual pero dependiendo de la fuerza con la que se toquen las
teclas.
o .

SAMPLER:
El sampler o muestreador es un aparato capaz de digitalizar sonidos reales o
electrnicos y usarlos posteriormente como base de nuevos sonidos internos (Akai,
Ensoniq, Roland, etc.).

CAJA DE RITMOS:
Es un aparato dotado de un mdulo especializado en sonidos de batera y percusin (a
veces tambin bajos), y un secuenciador especializado en patrones rtmicos.


SECUENCIADOR HARD:
Dispositivo creado para grabar, almacenar, editar y reproducir secuencias M.I.D.I.
musicales multipista.
Es la herramienta utilizada por los compositores o arreglistas.
Permite escuchar pistas grabadas anteriormente mientras se graba una nueva,
modificar cualquier nota independiente o conjunto de notas que fueron pulsadas
incorrectamente, etc.

MUSICAL WORKSTATION:
Equipo dotado de todo lo necesario para interpretar, componer y grabar msica
M.I.D.I. Suele integrar en un solo chasis los siguientes elementos:
o Teclado maestro.
o Mdulo de sonidos.
o Secuenciador hard.
o Disco duro interno o conector SCSI.
o En ocasiones, unidad de muestreo o sampler.
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 30/65

PATCH BAY MIDI:
Es un equipo que sirve para cambiar cmodamente el interconexionado de un conjunto
de equipos M.I.D.I., es decir, la salida de un aparato a la entrada de otro, etc.
Slo interesa cuando tienes ms de 4 o 5 aparatos M.I.D.I., por lo que se restringe a un
campo bastante profesional.

M.I.D.I. MERGE BOX:
Esta caja M.I.D.I. mezcla dos seales M.I.D.I. de dos cables a uno slo. Esto no es
sencillo, puesto que es un cdigo multibyte y los bytes de dos cables distintos no
pueden llegar mezclados a su destino.
Es til cuando quieres conectar dos controladores o fuentes de mensajes a un solo
destinatario; por ejemplo, conectar dos teclados maestros a un solo mdulo de sonidos.

M.I.D.I. THRU BOX:
Es el inverso al anterior: disponemos de una fuente que queremos conectar a varios
destinatarios. Este circuito es una especie de triple ms sencillo que el MIDI MERGE.
No es necesario usarlo en configuraciones de pocos aparatos MIDI, puesto que para
ello existen las conexiones THRU (retransmisin). Se conectara el MIDI OUT del
primer equipo al MIDI IN del segundo, y del THRU de este al IN del 3, del THRU del 3
al IN del 4, etc

MEZCLADOR (MERGE) M.I.D.I.:
Mesas de mezclas para combinar varias fuentes de sonido en una.

3.8. Formatos de Archivos de audio.

Histricamente, cada modelo de computador o programa defini su propio formato de fichero
para almacenar la informacin de sonido. Algunos de estos formatos han perdurado y se han convertido
en los ms empleados actualmente. Podemos distinguir dos estilos de formato, los que contienen una
cabecera que indica los parmetros empleados en la codificacin (frecuencia de muestreo, nmero de bits,
estreo/mono, etc.) y los de tipo "raw" o crudo que no contienen ms informacin que los propios datos.
Entre los primeros, podemos citar los siguientes:

Extensin Nombre Origen Comentarios
.au .snd NeXT/Sun NeXT, Sun
Frecuencia de muestreo variable. Tiene
una cadena de informacin.
.aif(f) AIFF Apple, SGI
Frecuencia de muestreo, tamao de la
muestra y nmero de canales variables.
.aif(f) AIFC Apple, SGI AIFF con compresin.
.iff IFF/8SVX Amiga
Frecuencia de muestreo y nmero de
canales variables. Slo 8 bits. Informacin
de envolvente.
.voc VOC Soundblaster
Frecuencia de muestreo variable. Slo 8
bits, 1 canal.
.wav RIFF, WAVE Microsoft
Frecuencia de muestreo, tamao de la
muestra y nmero de canales variables.




Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 31/65
Entre los formatos sin cabecera tenemos:

Extensin Nombre Origen Comentarios
.snd .fssd Mac, PC
Frecuencia de muestreo variable. 1 canal.
8 bits sin signo.
.ul Telefona USA 8000 m/s, 1 canal, 8 bits logartmicos.
.snd_ Amiga
Frecuencia de muestreo variable. 1 canal.
8 bits sin signo.



A continuacin vamos a describir algunos de los nuevos formatos que han ido apareciendo en los
ltimos aos y que despiertan un mayor inters.

3.8.1. WAV

El formato WAV es un formato bsico que almacena la onda de la forma de la onda de la seal entrante.
Por lo tanto, trata de almacenar las muestras una tras otra (a continuacin de la cabecera del fichero, que
entre otras cosas indica la frecuencia de muestreo), sin ningn tipo de compresin de datos, con
cuantificacin uniforme. La sencillez de este formato lo hace ideal para el tratamiento digital del sonido.
Los datos numricos que ocupan ms de un byte se representan de la siguiente forma: Primero estn los
bytes menos significativos, y a continuacin los ms significativos (convenio "extermista menor", tambin
conocido como "formato Intel"). El formato de los ficheros .WAV es el siguiente:
Bytes Contenido Usual Propsito/Descripcin
00 - 03 "RIFF" Bloque de identificacin (sin comillas).
04 - 07 ??? Entero largo. Tamao del fichero en bytes, incluyendo cabecera.
08 - 11 "WAVE" Otro identificador.
12 - 15 "fmt " Otro identificador
16 -19 16, 0, 0, 0 Tamao de la cabecera hasta este punto.
20 - 21 1, 0
Etiqueta de formato. (Algo as como la versin del tipo de formato
utilizado).
22 - 23
1, 0 (mono) ; 2,0
(estreo)
Nmero de canales (2 si es estreo).
24 - 27 ??? Frecuencia de muestreo (muestras/segundo).
28 - 31 ??? Nmero medio de bytes/segundo.
32 - 33 1, 0 Bytes por muestra
34 - 35 8, 0 Nmero de Bits por muestra (normalmente 8, 16 32).
36
39
"data" Marcador que indica el comienzo de los datos de las muestras.
40 - 43 ??? Nmero de bytes muestreados.
Resto ??? Muestras (cuantificacin uniforme)

3.8.2. MP3.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 32/65
Los formatos de grabacin digital de audio con calidad de CD requieren mucho espacio de
almacenamiento. Por ejemplo, el formato de audio empleado en los discos compactos, usa 44Khz y 16
bits (2 bytes) de precisin cada segundo, es decir, si grabamos en estreo (2 canales), necesitamos 44.100
x 2 x 2 = 176.400 bytes por segundo (10.584.000 bytes por minuto). Por tanto, una cancin de unos 4
minutos ocupara unos 40 MB. La solucin para poder tratar de forma adecuada esta gran cantidad de
informacin es la COMPRESIN con la menor prdida de calidad posible de la seal original.

Dentro de los estndares de vdeo MPEG (de los que hablaremos en temas posteriores) hay
tambin creados estndares de compresin de audio. Como se permiten distintas calidades existen tres
"capas" con distintos esquemas de compresin: la capa 1, la 2 y la 3 (de forma que la complejidad es
progresiva y un decodificador funciona tambin con las capas anteriores), y esta ltima se conoce por
MP3 o MPEG Audio Layer-3.

El MP3 permite comprimir en un factor aproximado de 12 la informacin original muestreada
(unos 120 Kbits por segundo, es decir, ms o menos 1 Mb por minuto) sin perder calidad de sonido de
forma apreciable (por un odo no entrenado... y de hecho los estudios de percepcin de calidad de mp3
se han hecho con oyentes humanos opinando sobre las diferencias). Para hacernos una idea aproximada
de la compresin obtenida, en un CD-ROM podemos almacenar unos 700 minutos de msica, es decir,
ms de 11 horas! (unas 175 canciones de 4 minutos cada una).


Formato


Compresin Kb/seg
Layer1 4 a 1 384
Layer2
6 a 1
8 a 1
256
192
Layer3
10 a 1
12 a 1
128
112

El formato mp3 utiliza unos cuantos trucos para comprimir el sonido, fundamentalmente tcnicas
de codificacin de percepcin que aprovechan la manera en la que el odo humano percibe el sonido.
Veamos algunas de las claves:



Umbral mnimo de audicin.
El umbral mnimo de audicin humano (minimal audition threshold) no es lineal. De acuerdo a la
ley de Fletcher y Munsen, se representa por una curva entre 2 y 5 KHz. Cualquier sonido situado fuera
de este margen puede no codificarse, ya que no ser percibido de cualquier modo.

Efecto mscara.
Hay una serie de propiedades de ocultacin (masking effect) del odo humano. De la misma
forma que al mirar a un objeto muy brillante se anula la percepcin de otros objetos que puedan
cruzarlo, en audio los sonidos fuertes no dejan oir a los dbiles.
Para conseguir aprovechar esta caracterstica mp3 usa un modelo psicoacstico del
comportamiento del odo humano, que filtra los sonidos ms dbiles cuando hay sonidos muy fuertes a
la vez.

Reserva de bytes.
Partes de una obra pueden no ser codificados por debajo de un nmero de bytes por segundo
para mantener la calidad. En estos casos, mp3 usa partes que s pueden codificarse en un tamao
inferior para almacenar parte de los otros, de modo que acta como una especie de buffer de las partes
ms exigentes.

Fusin de estreo.
En muchas msicas, en frecuencias determinadas, el odo humano no puede distinguir el origen
espacial de los sonidos de un canal u otro del estreo. En este caso mp3 puede fusionar las dos seales
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 33/65
en una nica (mono) aadiendo quizs alguna informacin de diferenciacin de canales para disminuir
al mnimo la informacin determinada por la diferencia entre uno y otro canal.

Codificacin de Huffman.
El cdigo Huffman se aplica al final de la compresin. En cierto modo complementa a las otras
partes de la codificacin mp3: en algunas partes polifnicas se puede reducir mucha informacin
enmascarada o de estreo, y en ese caso habr poca redundancia (y por ello poca reduccin por
codificacin Huffman); mientras que en partes de solos se podrn aplicar pocos efectos de mscara pero
habr muchos bytes redundantes (mucha reduccin por Huffman).

A continuacin vamos a ver las diferentes fases en las que podemos dividir el proceso de
transformar un archivo de CD-Audio en un archivo MP3.
1. Conversin a audio digital sin comprimir.
a. Para convertir un archivo de audio a formato MP3 debemos partir de una copia digital, que
puede obtenerse a partir de un disco compacto, o mediante una grabacin convencional
(conversin de analgico a digital).
b. Este proceso de convertir un archivo en formato CD Audio a Audio Digital en disco duro
se realiza mediante ripeadores (Windac, CDDA, CD extractor o similares).
c. Algunas unidades de CD-ROM no permiten la copia de datos digital, por lo que debemos
grabarlo como fuente analgica, lo que redundar en una pequea prdida de calidad.

2. Codificacin a MP3.
a. Para esto podemos utilizar programas como MP3 compresor o similares.
b. Se puede instalar un CODEC en ciertos programas para realizar esta conversin.
c. Un CODEC es un algoritmo de compresin y descompresin que suele instalarse en
Windows y pueden usarlo todas las aplicaciones que lo necesiten.
d. El proceso de compresin es un proceso desesperadamente lento, debido a la complejidad de
los clculos que deben realizarse.

3. Descomprimir un archivo MP3.
a. Pasar de MP3 a CD Audio (WinAmp, Nero, etc.).


4. Reproducir MP3.
a. Debe descomprimirse en tiempo real (WinAmp, reproductor de medio de windows, etc.).

Formato de fichero MP3

Los archivos MP3 estn segmentados en grupos de frames, cada uno de los cuales contiene una fraccin
de segundo de datos de audio que pueden ser reconstruidos por el decodificador. Al principio de cada
frame de datos existe una cabecera que almacena 32 bits de metadatos relacionados con los datos
contenidos en el frame, tal y como aparece en la siguiente figura.



La cabecera MP3 (ver figura siguiente) comienza con un bloque de sincronizacin de 11 bits. Este bloque
permite a los reproductores buscar la primera ocurrencia de un frame vlido, lo que es til para
broadcasting. Sin embargo, esto no es suficiente para que el decodificador empiece a funcionar, sino que
hay que comprobar la validez del resto de la cabecera.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 34/65



La siguiente tabla muestra el contenido de los 32 bits de la cabecera de datos, separados en 13
posiciones

Seal Longitud
(bits)
Posicin
(bits)
Descripcin
A 11 (31-21) Sincronizacin (todos los bits a 1)
B 2 (20,19) Versin MPEG Audio
00 - MPEG Versin 2.5
01 - reserved
10 - MPEG Versin 2 (ISO/IEC 13818-3)
11 - MPEG Versin 1 (ISO/IEC 11172-3)
Nota: MPEG Versin 2.5 fue aadida al estndar MPEG 2, usada
para bitrates muy bajos. Para decodificadores que no soporten esta
extensin se recomienda el uso de 12 bits para sincronizacin en vez
de 11.
C 2 (18,17) Descripcin de nivel
00 - reserved
01 - Layer III
10 - Layer II
11 - Layer I
D 1 (16) Bit de Proteccin
0 Protegido por CRC
1 - No protegido
E 4 (15,12) Bitrate en kbps
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 35/65
bits V1,L1 V1,L2 V1,L3 V2,L1 V2, L2 & L3
0000 Libre Libre Libre Libre Libre
0001 32 32 32 32 8
0010 64 48 40 48 16
0011 96 56 48 56 24
0100 128 64 56 64 32
0101 160 80 64 80 40
0110 192 96 80 96 48
0111 224 112 96 112 56
1000 256 128 112 128 64
1001 288 160 128 144 80
1010 320 192 160 160 96
1011 352 224 192 176 112
1100 384 256 224 192 128
1101 416 320 256 224 144
1110 448 384 320 256 160
1111 Mal Mal Mal Mal Mal
V1 - MPEG Versin 1
V2 - MPEG Versin 2 y Versin 2.5
L1 - Layer I
L2 - Layer II
L3 - Layer III

"libre": formato libre. Debe ser constante y por debajo del mximo
permitido. No tiene por qu ser aceptado por un decodificador.
"mal": valor no permitido.
Algunos ficheros MPEG usan bitrate variable (VBR). Cada frame
puede poseer un bitare diferente. Esta caracterstica es soportada
por los decodificadores Layer III, no por todos los de Layer I y II

F 2 (11,10) Frecuencia de muestreo
bits MPEG1 MPEG2 MPEG2.5
00 44100 Hz 22050 Hz 11025 Hz
01 48000 Hz 24000 Hz 12000 Hz
10 32000 Hz 16000 Hz 8000 Hz
11 reserv. reserv. reserv.
G 1 (9) Bit de ajuste
0 - frame no ajustado
1 - frame ajustado con un slot extra

Sirve para asegurarnos que cada frame cumple los requisitos del
bitrate.
H 1 (8) Bit Privado, informativo. Si no existe, se pone un checksum de 16
bits antes de los datos de audio
I 2 (7,6) Modo
00 - Stereo
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 36/65
01 - Joint stereo (Stereo)
10 - Dual channel (2 mono channels)
11 - Single channel (Mono)

Nota: Los archivos de canal dual se construyen a partir de dos mono
independientes, cada uno usa la mitad del bitrate.
J 2 (5,4) Extensin de Modo (para Joint stereo)
Determinados directa y dinmicamente por un codificador. Se
divide el rango de frecuencias en 32 subbandas. Para Layer I y II los
bits determinan las bandas donde se aplica el estreo intenso. Para
Layer III determinan qu tipo de estreo se usa (intenso o MS)
Layer I y II Layer III
valor Layer I & II
00 bandas 4 a 31
01 bandas 8 a 31
10 bandas 12 a 31
11 bandas 16 a 31
Intenso MS
off off
on off
off on
on on
K 1 (3) Copyright
0 - Audio sin copyright
1 - Audio con copyright
L 1 (2) Originalidad
0 - Copia
1 - Original
M 2 (1,0) nfasis
00 - no
01 - 50/15 ms
10 reservado
11 - CCIT J.17

Indica al decodificador si el fichero ha de ser re-ecualizado. No se
suele usar


3.8.3. VQF.

Existe un nuevo formato menos popular que el MP3 pero que obtiene mejores resultados en cuanto
a reduccin de tamao y calidad obtenida. Este formato es el VQF.

Este formato ha sido creado por los laboratorios de la empresa nipona NTT y distribuido por
Yamaha. Se prev que sea el formato sustituto del MP3.

Yamaha es el distribuidor de SoundVQ (Player y Encoder para VQF), ya sea para Windows o
MAC. El WinAmp tambin nos puede servir para reproducir archivos VQF con el plugin adecuado.

Los archivos VQF son entre un 30-35% ms pequeos que un archivo MP3. Por ejemplo:
El archivo WAV de una cancin de 4 minutos ocupa aproximadamente 40MB.
Al convertir ese archivo a formato MP3 ocupa unos 3.33MB.
Al convertirlo a VQF ocupa solamente 2.33MB.
Hablamos de un ratio de compresin de 1 a 18 en VQF frente al 1 a 12 del MP3.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 37/65
Este nivel de compresin obtenido no afecta de ningn modo a la calidad del sonido resultante,
inclusive la calidad del sonido de este formato es mucho mejor que el de MP3.

Si comparamos los formatos VQF y MP3 podemos observar las siguientes ventajas e
inconvenientes:

VENTAJAS:
Los archivos VQF son aproximadamente un 30-35% ms pequeos que los archivos MP3.
La calidad del sonido es mucho mejor que la del MP3, ya que tiene un 99% de la calidad del CD
original.

INCONVENIENTES:
Los archivos MP3 ocupan un 15-20% de la capacidad de procesamiento del ordenador y un archivo
VQF ocupa un 30%.
Son difciles de encontrar.
3.8.4. OGG VORBIS

Ogg es el nombre que recibe un proyecto que tena como objetivo disear un nuevo sistema multimedia
de cdigo abierto. La segunda parte del nombre viene de la denominacin que se dio al esquema de
compresin de audio usado para crear archivos con este formato. De ah que el nombre de este nuevo
formato sea Ogg Vorbis. Como es lgico, la extensin que toman los ficheros bajo este formato es .ogg.
Ogg Vorbis es un nuevo formato de compresin de audio con calidad digital tanto para grabar como para
reproducir msica. Es comparable a los formatos mencionados anteriormente, aunque cuenta con una
caracterstica que le diferencia de los dems y que adems es bastante importante, y es que es
completamente gratuito y no est sujeto a ninguna patente. A partir de este momento comenzaron a
aparecer diferentes componentes de software, de los que luego hablaremos, entre los que no solo
encontramos reproductores del formato, sino que adems podremos tener acceso al cdigo del formato
mediante herramientas de desarrollo que los programadores podrn usar para comenzar a trabajar
universalmente con Ogg vorbis.

Ogg Vorbis est basado en la licencia pblica general de GNU. GNU es el nombre que recibe un proyecto
que data del ao 1984 cuyo objetivo era el desarrollo de un sistema operativo basado en Unix y con la
calificacin de software libre. Estos sistemas son hoy en da muy usados bajo el nombre de Linux. El
trmino de Software Libre est asociado ntimamente con el proyecto GNU, y por tanto a Ogg Vorbis, y
se basa en la libertad que segn los miembros de este proyecto debera existir sobre el software. Para
quienes configuran el GNU el hecho de no poseer software libre, supone una privacin de la tecnologa a
cierto sector de la sociedad, algo que no debera estar permitido y que seguir siendo as mientras exista
el copyright. Ogg Vorbis se rige en su totalidad por las normas del proyecto GNU, por lo que se considera
un sistema libre que podr circular, copiarse, mejorarse de manera libre. El cdigo de desarrollo de este
formato, est a disposicin de los programadores para ir puliendo los pequeos defectos que pueda tener,
al tiempo que se mejora su implementacin. El objetivo se sita en que algn da, todo el software que
requiera de contenido de audio, sea desarrollado y distribuido con cdigo de Ogg Vorbis. Por tanto, no
est sujeto a patentes como lo est MP3, y su uso no implica la obligacin de abonar una cantidad al
grupo de desarrollo de Ogg Vorbis. Tenemos un formato de calidad futurible, que no nos dar una
sorpresa dentro de un mes, hacindose de pago. Esto implica un posible soporte para otras empresas, que
pueden aadir msica de calidad a sus creaciones sin tener que pensar en el presupuesto necesario para
poder usar la tecnologa actual.

La intencin de Ogg Vorbis es conseguir una mayor aceptacin que el resto de formatos destinados al
mismo fin. Pero para lograrlo, el mejor argumento siempre es poseer la mejor calidad, por ello, y aunque
las comparaciones son odiosas, el mp3 es el punto de referencia sobre el que fijarnos a la hora de evaluar
este formato. En una hipottica situacin de compresin de una misma cancin, tanto en formato mp3 a
128 kbps como en formato ogg, el espacio que ambos ficheros ocuparan en disco es el mismo
aproximadamente, aunque en el segundo caso, la calidad auditiva sera superior. La explicacin se debe
fundamentalmente a los valores de muestreo en los que es capaz de trabajar este formato, llegando desde
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 38/65
los 16 kbps hasta los 128 kbps por canal, aunque en las especificaciones del formato no se detalla
especficamente que no se pueda codificar un archivo a 8 kbps o 512 kbps. Ogg Vorbis tiene una muy bien
definida cabecera para comentarios en los archivos, que es extensible y fcil de usar, sin tener que usar
etiquetas de ID3. Posee adems una escala de muestreo, es decir, una funcin que permite cambiar la
cantidad de muestra de un archivo o transmisin sin tener que recodificar el archivo entero, con el tiempo
que ello conlleva, simplemente se acortan los paquetes al tamao deseado. Los archivos Vorbis pueden
ser troceados y luego editados con extraordinaria fineza de muestreo, y puede implementar canales
mltiples, no solamente uno o dos. Adems, los archivos en Vorbis se pueden encadenar lgicamente.

Para que realmente sea til, el formato debe ser soportado por una serie de aplicaciones que provean la
funcionalidad mnima exigida al formato, en el mayor nmero de mbitos posibles. Ogg Vorbis est
fuertemente impuesto en aplicaciones como:
Icecast (audio streaming10)
XMMS (reproductor de audio)
Sonique (reproductor de audio)
Winamp (reproductor de audio)
Serious Sam (como msica de un videojuego)
Super Audio Converter (conversor de formatos)

Mtodo de compresin

Hablaremos ahora de unas ligeras explicaciones sobre algunas partes que se usan en el algoritmo de
compresin. Usa la MDCT (transformada modificada discreta del coseno), un tipo de DFT(transformada
discreta de Fourier), cuyo objetivo primordial es pasar del dominio del tiempo al dominio de la
frecuencia. El anlisis de Fourier permite representar cualquier forma de onda mediante un conjunto de
componentes armnicamente relacionados de amplitud y fase adecuadas. La transformada de una forma
de onda de audio tpica vara de manera relativamente lenta. La lenta seal sonora procedente del tubo
de un rgano o de la cuerda de un violn, o el lento decrecimiento de la mayora de los sonidos musicales,
permite la reduccin de la frecuencia a la que la transformada es muestreada, obtenindose una ganancia
de codificacin. Las transformadas prcticas requieren bloques (tambin llamados ventanas) de muestras
en lugar de cadenas interminables. La solucin est en cortar la forma de onda en cortos segmentos
solapados y, seguidamente, transformar cada uno de ellos individualmente. De este modo, cada muestra
de entrada aparece en slo dos transformadas, pero con una ponderacin variable dependiendo de su
posicin en el eje temporal.

La DFT requiere gran nmero de clculos, debido al requisito de tener que utilizar una aritmtica
compleja para obtener la fase de las componentes, as como la amplitud. Una alternativa consiste en
emplear la Transformada Discreta del Coseno (DCT). Esta presenta una ventaja cuando se utiliza con
ventanas solapadas. En la Transformada Discreta del Coseno Modificada (MDCT)[39], se usan ventanas
con un solapamiento del 50 %. El problema que surge es al tener un efecto transitorio hacia el final del
bloque, ya que el decodificador reproduce la forma de onda correctamente, pero el ruido de cuantizacin
comenzar al principio de bloque, y puede dar lugar a un pre-eco. La solucin es utilizar una ventana de
tiempo variable de acuerdo con el contenido del transitorio de la forma de onda de audio. Cuando se
producen transitorios musicales, se necesitan bloques cortos, por lo que la resolucin de la frecuencia y,
por tanto, la ganancia de codificacin sern bajas. En otras ocasiones, los bloques pueden hacerse ms
grandes, mejorando as la resolucin de la frecuencia de la transformada y obtenindose una mayor
ganancia de codificacin. Vorbis usa ventanas de dos tamaos, las grandes y las pequeas. Los tamaos
deben ser pequeas potencias de 2, normalmente entre 256 y 2048, y se fijan para cada ejecucin del
algoritmo. El tamao podra ser igual, y el algoritmo conceptualmente usara solo ventanas pequeas.
Ambas ventanas se usan para controlar la expansin temporal del pre-eco producido por la MDCT como
resultado de un incremento brusco en la energa auditiva, como pueden darse en sonidos como la p,
por ejemplo. Las ventanas pequeas se usan cerca de estos sonidos cortantes para aislar el efecto de
deslizamiento temporal que ocurrira en otro caso. Las ventanas grandes se usan el en resto. Las ventanas
cortas no se usan para los decrementos bruscos, ya que el odo humano es menos sensible a los post-ecos).

El algoritmo tpico de Ogg Vorbis busca saltos de 24-32 dB en 256 muestras. Usa un filtro paso-alto IIR11
para ignorar los cambios bruscos en la banda de baja frecuencia. Cada par de ventanas consecutivas est
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 39/65
separada por 1/4 del tamao total de la pareja, lo que corresponde a un 50% de solapamiento cuando las
ventanas son de idntico tamao. Cabe destacar que las curvas son simtricas con respecto a los
solapamientos. Es decir, cuando se solapen una ventana grande y una pequea, la curva de la ventana
grande ser asimtrica, ya que la cada ser simtrica a la subida de la pequea, que no es igual a la
subida de la grande.

Para calcular los floor (valor base medio de la ventana analizada), se pasa la seal a una escala
logartmica de dB. Tras esto, se convierte toda la curva en positiva, aadiendo un desplazamiento de
amplitud, ampdB. Ahora se convierte la curva a LPC (codificacin linear predictiva). LPC es uno de los
mtodos ms poderosos de anlisis de voz, y uno de los mtodos ms tiles para codificar voz a buena
calidad con una tasa baja de bits. LPC asume que la seal es producida por un zumbador al final de un
tubo. La glotis produce el zumbido, que est caracterizado por su intensidad y su frecuencia. La boca y la
garganta forman el tubo, caracterizado por su resonancia, llamada. LPC analiza la seal estimando la
resonancia, eliminando su efecto en la seal, y estimando la intensidad y frecuencia del zumbido restante.
Este proceso se conoce como filtrado inverso, y la seal restante se llama residuo. Tras tener la curva en
LPC, se cuantiza a bits de amplitud, en la escala [0, ampdB], truncando, no redondeando.

Si no es silencio, se convierte la seal de LPC a LSP (parejas de lneas espectrales), que al ser
ortogonales, son estables. Se divide el LSP en trozos de longitud dim. Hay que tener en cuenta que el LSP
ser siempre una secuencia incremental. Ahora se busca el trozo que mejor ajusta con ste en el
codebook(diccionario donde se van almacenando los trozos distintos de la seal), usado par evitar
duplicidad de trozos, devolviendo la entrada correspondiente. Este nmero de entrada siempre es en
relacin al valor del ltimo trozo, o 0 si es el primer trozo. Por ejemplo, si el mejor ajuste es el trozo
antepenltimo, el nmero ser 2 (dos hacia la izquierda). Tras esto, se aade al buer (resultado de la
compresin ogg vorbis, es decir, el buer de salida) y se obtiene la curva espectral envolvente del LSP.

Si es silencio, devuelve simplemente una curva cero sin aadirlo al buer.
Los Codebooks tienen estructura de retculo. Se pueden escribir compactamente sin ser enumerados.
La generacin de residuos consiste en coger el floor y restrselo a la seal PCM (modulacin por
codificacin de pulsos). Todos los residuos se codifican, y se escriben sus entradas en el buer. Se invierte
la MDCT y se le da una oportunidad a las funciones de floor para que modifiquen las cosas. Su finalidad
es ver la calidad resultante, y si estima que no es la deseada, intenta mejorarla cambiando los parmetros.


En resumen

Vorbis utiliza principios matemticos muy diferentes a los que usa MP3, lo cual presenta otro tipo de
desafo en la manera de comprimir msica. En las pruebas de audio, los archivos de Vorbis y MP3
codificados con la misma compresin tienen una calidad de audio parecida. Vorbis es un formato
flexible, lo cual posibilita la afinacion de los algoritmos an cuando el formato este congelado. En
cuanto al tamao de los archivos, dos archivos codificados al misma cantidad de muestreo siempre
tendrn el mismo tamao si es que los dos fueron codificados con CRB (Bitrate Constante).
Actualmente, Vorbis solamente codifica con VBR (Bitrate Variable), el cual produce archivos ms
pequeos con mejor calidad, ya que no desperdicia informacin en audio que es facil de codificar. Los
archivos producidos con Vorbis Beta tendrn un tamao muy similar a archivos MP3 a 128kbs, pero
sonarn mejor. En teora, no hay limite de muestreo para OGG Vorbis. Vorbis ha sido afinado para que
usar cantidades de muestreo entre 16kpbs y 128kpbs por canal. Pero no hay nada en la especificacin
que no permite codificar un archivo a 512kbps o 8kbps. El codificador actual funciona en los siguientes
bitrates: 128, 160, 192, 256, 350 kbps en mono o estreo. Cantidades menores estarn disponibles en el
futuro.

Vorbis tiene una muy bien definida cabecera para comentarios, que es extendible y facil de usar, sin
tener que usar etiquetas de ID3. Vorbis tiene una escala de muestreo, una funcin que permite cambian
el la cantidad de muestra de un archivo o transmisin sin tener que recodificar; simplemente se acortan
los paquetes al tamao deseado. Los archivos Vorbis pueden ser trozados y luego editados con
extraordinaria fineza de muestreo. Vorbis puede implementar canales mltiples, no solamente uno
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 40/65
dos. Adems, los archivos en Vorbis se pueden encadenar logicamente. Adems permite escalar la tasa
de bits sin necesidad de recodificar.

Generacin de archivos OGG desde un CD de audio

1. Obtener el fichero en formato WAV (Para ello se puede hacer uso de programas tipo CD-EX)

2. Normalizacin
Si fuimos conservadores en el volumen de grabacin es muy probable que nuestra grabacin no haya
aprovechado todo el rango dinmico disponible. En este caso es recomendable aumentar el nivel de la grabacin
para que el mximo pico use el mximo valor posible. (CD-EX permite normalizar el audio al extraerlo,
NormalizeGUI)
3.Codificar usando un codec para OGG (oggenc)

Existen programas que directamente generan ficheros OGG a partir de un CD de audio
(Audiograbber, CDEX)

Finalmente, veamos el contenido de un archivo OGG. Comienza con 3 cabeceras, que sirven para
identificar, poner comentarios y establecer la configuracin, y todas ellas son necesarias para una
decodificacin exitosa. Cada cabecera comienza con los mismos campos:

1) [tipo] : valor de 8 bits
2) 0x76, 0x6f, 0x72, 0x62, 0x69, 0x73: 'v','o','r','b','i','s'

A continuacin se decodifica atendiendo al tipo de paquete: 1 identificacin; 3 comentarios; y 5
configuracin. Deben aparecer en este orden.

La cabecera de informacin posee unos campos que declaran el contenido como Vorbis y proporcionan
informacin sobre el flujo audio. Estos son los campos, que slo son significativos cuando tienen valor
distinto de cero:

1) [vorbis_version] = 32 bits. Suele estar a 0.
2) [canales_audios] = 8 bits. Valor mayor que 0.
3) [ratio_muestreo_audio] =32 bits Valor mayor que 0.
4) [bitrate_max] = 32 bits
5) [bitrate_nominal] = 32 bits. No se pone nada cuando se codifica con VBR.
6) [bitrate_min] = 32 bits
7) [tamao_bloque_0] = 2 exponente (4 bits) Valores posibles_ 64, 128,256,512,1024,2048, 4096, 8192.
8) [tamao_bloque_1] = 2 exponente (4 bits) Debe ser mayor o igual que el campo anterior
9) [bandera_framing] = 1 bit. Debe valer 1.

Si ponemos los campos 4, 5 y 6 con el mismo valor estamos estableciendo un bitrate fijo. Si slo
damos valor al nominal, implica uso de VBR o ABR con una media de valor del nominal. Si ninguno tiene
valor el decodificador puede especular. Con los valores mximo y mnimo establecido se genera un flujo
VBR que obedece dichos lmites.

La cabecera de comentarios es una lista de vectores de 8 bits; el nmero de vectores queda limitado a
2^32-1 y la longitud del vector a 2^32-1 bytes. La longitud del vector se codifica. Aparte de la lista de
vectores existe un vector para el nombre de la organizacin. Actualmente este vector vale "Xiph.Org
libVorbis I 20020717". Se codifica de la siguiente forma:

1) [vendor_length] = 32 bits
2) [vendor_string] = UTF-8 vector con longitud [vendor_length]
3) [longitud_lista_comentarios] = 32 bits
4) iterar de 1 a longitud_lista_comentarios {
5) [longitud] = 32 bits
6) comentario = UTF-8 vector como octetos de longitud [longitud] octets
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 41/65
}

7) [bit_framing] = 1 bit
8) if ( [bit_framing] a 0 o fin de paquete ) then ERROR

Los vectores de comentarios se estructuran como variables de entorno de UNIX., esto es, consiste de
un campo nombre y otro valor, de la siguiente forma:
comment[0]="ARTIST=me";
comment[1]="TITLE=the sound of Vorbis";

A continuacin se muestra una lista de campos estndar, con una descripcin de su uso. Ninguno de
estos campos es obligatorio, y la cabecera de comentarios puede contenerlos o no.

TITLE: Nombre de la pista o trabajo
VERSION: Para diferenciar versiones de una misma pista.
ALBUM: Nombre del lbum al que pertenece la pista.
TRACKNUMBER: Nmero de pista.
ARTIST: Nombre del compositor.
PERFORMER: Cantante.
COPYRIGHT: Quien tiene los derechos.
LICENSE: Informacin sobre la licencia
ORGANIZATION: Productora
DESCRIPTION: Descripcin del contenido.
GENRE: Gnero
DATE: Fecha de grabacin.
LOCATION: Localidad de grabacin.
CONTACT: Informacin de contacto.
ISRC: Nmero ISRC para la pista.


La cabecera de configuracin contiene la informacin necesaria para decodificar. Contiene, en este orden,
la lista de configuraciones de codebooks, configuraciones de transformaciones en el dominio del tiempo,
configuraciones de floors, de residuos, de mapeo de canales y de modo, acabando con el bit de framing a
1. Esta es la estructura:

codebooks
[conteo_vorbis_codebook] =8 bits +1
Decodificar [conteo_vorbis_codebook] codebooks segn el orden establecido en el documento.
Salvar cada configuracin en un array de configuraciones de codebooks
[configuraciones_vorbis_codebook].

Transformadas en el dominio del tiempo

[conteo_vorbis_tiempo] = 6 bits+1
leer [conteo_vorbis_tiempo] valores de 16 bits; cada valor debera ser 0 para no dar error

floors

[conteo_vorbis_floor] = 6 bits+1
Para cada floor:
Leer tipo de floor: vector [tipo_vorbis_floor] elemento [i] = 16 bits
Decodificar segn el tipo de floor y guardar la configuracin en el slot [i] del array
[configuraciones_vorbis_floor]. Si el tipo es mayor que 1, entonces error

residuos
[conteo_vorbis_residuos] = 6 bits+1
Para cada residuo:
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 42/65
Leer tipo de residuo= 16 bits
Si el tipo es mayor que 2, error. En otro caso, decodificar de acuerdo al tipo de residuo y guardar la
configuracin en el array [configuraciones_vorbis_residuos].

mapeos

Se usan para definir tuberas especficas para codificar audio multicanal con varias aplicaciones de
mapeo de canales. Vorbis I usa un tipo nico de mapeo (0) con mapeos de canal PCM implcitos.

[conteo_vorbis_mapeos] = 6 bits+1

Para cada mapeo:

Leer tipo de mapeo: 16 bits.
Si el tipo es distinto de 0, no se puede decodificar. En otro caso,
Leer un bit. Si vale 1, entonces leer como [vorbis_mapeo_submapeo] = 4 bits+1.
Si vale 0, [vorbis_mapping_submaps] = 1

Leer un bit. Si vale 1, entonces

[vorbis_mapeo_pasos_acoplamiento] = 8 bits+1
Para cada paso j :
vector [vorbis_mapeo_magnitue] element [j]= leer ilog([audio_channels] - 1) bits
vector [vorbis_mapeo_ngulo] element [j]= leer ilog([audio_channels] - 1) bits

Estos nmeros representan el canal a tratar como magnitud y ngulo respectivamente. Si para algn
paso ambos son iguales, o alguno es mayor que canales_audio-1, entonces no es decodificable.

Si vale 0, [vorbis_mapeo_pasos_acoplamiento] = 0
Leer 2 bits (campo reservado); si no valen 0, indecodificable

Si [vorbis_mapeo_submapeo] es mayor que uno, entonces leemos los parmetros multiplex del canal

. Para cada canal j:

vector [vorbis_mapeo_mux] elemento [j] = 4 bits
si el valor es mayor que el mayor submapeo ([vorbis_mapeo_submapeo] - 1), indecodificable

para cada submapeo [j], leer floors y residuos:
leer y descartar 8 bits
leer 8 bits para el nmero de floor; guardarlo en en el vector [vorbis_mapeo_submapeo_floor]
element [j]
verificar que no es mayor que el mayor nmero de floor configurado para el archivo.
Leer 8 bits como nmero de redisuo; guardar en vector [vorbis_mapeo_submapeo_residuo] element
[j]
Verificar que no es mayor que el lmite para residuos para el archivo.

Guardar la configuracin del mapeo en el array [configuraciones_vorbis_mapeo].

modos

[conteo_vorbis_modo] = 6 bits+1

Para cada modo:

[vorbis_modo_blockflag] = 1 bit

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 43/65
[vorbis_modo_tipo_ventana] = 16 bits

[vorbis_modo_tipo_transformada] = 16 bits

[vorbis_modo_mapeo] = 8 bits

verificar rangos; cero es el nico valor legal en Vorbis I para el tiop de ventana y de transformada. El
modo de mapeo no debe ser mayor que el mayor nmero de mapeo usado.
Guardar la configuracin de modo en [configuraciones_vorbis_modo].

A continuacin ya vendra el audio del fichero.
3.9. Audio digital


3.9.1. SRS.

En los ltimos aos han proliferado algunos sistemas de grabacin de sonido que persiguen una
reproduccin ms fiel, que envuelva al oyente como lo hacen los sonidos naturales. Aunque el sonido
estreo de dos canales ha alcanzado unas cotas de calidad excepcionales y puede reproducir en cierta
forma algunos efectos de movimiento del sonido, no sirve para distinguir si ste nos viene desde atrs o
por arriba.

El sistema que ms xito ha cosechado entre los usuarios de ordenadores personales es el SRS y
sus derivados. El SRS es un sistema de reproduccin (no de grabacin) que aprovecha las grabaciones
estreo para producir un efecto de realce lateral. El sonido parece que adquiere cuerpo al activar un
filtro SRS.
En realidad, el sonido sigue siendo estreo, ya que es imposible obtener un efecto de volumen
con slo dos altavoces. Lo que ocurre es que, como hemos sealado en el cuerpo general del artculo, el
odo es ms sensible a las altas frecuencias que a las bajas y a los sonidos laterales que a los frontales.

Por tanto, el SRS toma la diferencia entre las seales izquierda y derecha y les sube el volumen.
Esta elevacin del volumen de algunas frecuencias hacen que el cerebro crea que viene de los lados,
cuando en realidad vienen del frente.

Filtros de ruido: Es ms que probable que por algn sitio guardemos una cinta de casete un
poco antigua. Si la reproducimos en una pletina normal y corriente, sin filtros de ruido, oiremos un
pequeo siseo de fondo en aquellos puntos donde no haya canciones grabadas. Si el nivel de este ruido
no es exagerado, desaparece cuando empieza el siguiente tema y vuelve a aparecer al terminar. Qu
es lo que pasa? En realidad el ruido est siempre ah. Lo que ocurre es un fenmeno conocido como
enmascaramiento que oculta las frecuencias de ruido con las del tema principal, que tiene un espectro
ms amplio y potente.

Este es uno de los principios ms aplicados en los reductores de ruido: se toma una muestra del
nivel mximo de ruido y un circuito electrnico reduce el volumen hasta el mnimo, haciendo que
desaparezca. Cuando se rebasa este nivel mnimo, se elimina la limitacin de volumen y el tema musical
enmascara el ruido.

El problema es que cuanto ms rpido es el cambio entre la etapa de ruido y la del tema musical,
mayores son los ruidos secundarios que aparecen, una especie de ecos metlicos. La reduccin de ruido
es una de las partes ms complejas del tratamiento de audio y ocupa la actividad de empresas tan
importantes como Dolby.

El sistema Dolby Surround Prologic, es uno de los sistemas de gestin y control de sonido
envolvente que ms se ha difundido a nivel domstico. Este sistema, en su ltima versin, la 5.1, emplea
cinco altavoces independientes, apoyados por un refuerzo de graves. La seal cuadrafnica se
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 44/65
encuentra grabada en formato compatible con el estndar estereofnico, siendo un procesador DSP, el
encargador de extraer y separar los canales de cada altavoz.

El altavoz frontal se encarga de reproducir los dilogos, los delanteros izquierdo y derecho,
ofrecen los efectos especiales de la banda sonora y los traseros apoyan a los delanteros consiguiendo el
efecto envolvente. Este sistema es analgico y presenta algunos inconvenientes. De cara a solucionar
estos problemas los laboratorios Dolby desarrollaron el Dolby Digital AC-3 que se describe en el
siguiente apartado.

En la actualidad podemos encontrar tarjetas de sonido que soportan estos estndares, as como la
conexin mediante interfaces digitales con amplificadores, reproductores, grabadores y otros
dispositivos.

3.9.2. DOLBY DIGITAL AC-3.

Los mtodos de tratamiento del sonido en Dolby Digital es a travs de la codificacin del audio
por medio de algoritmos de compresin y en codificacin multicanal. Por medio de la codificacin
multicanal se consigue una mejor percepcin de las diferentes frecuencias que se obtienen en un solo
sonido.

Los algoritmos de compresin se basan en dos fenmenos principalmente:
La curva de sensibilidad del odo.
El fenmeno de enmascaramiento.

Se utilizan 6 canales de audio con las siguientes caractersticas:
Frontal izquierdo (20Hz a 20Khz).
Frontal derecho (20Hz a 20Khz).
Central (20Hz a 20Khz).
Surround trasero izquierdo (20Hz a 20Khz).
Surround trasero derecho (20Hz a 20Khz).
Subwoofer de baja frecuencia (limitado a graves).

Cinco de los canales son de banda completa (cubren la totalidad de la banda audible [20Hz a
20Khz]) y el canal de subwoofer est limitado a la banda de frecuencias bajas. Por esto, se suele decir que
es un sistema que entrega 5.1 canales.

Dolby Digital emplea la tecnologa de procesado del sonido basado en AC3 (Audio Code
Number 3), sistema de codificacin digital desarrollado para almacenar y transmitir seales multicanal
digitales. Se consigue la separacin entre canales posibilitando que sonidos individualizados lleguen
desde mltiples direcciones al oyente.

En los CDs y Laser Discs se emplea el audio digital en formato PCM. En esta codificacin se
muestra la onda analgica de 16 bits 44.100 veces por segundo. Este proceso crea demasiados datos para
los sistemas multicanal por lo que se necesita una forma de reduccin considerable de los datos sin
degradar la calidad del sonido resultante. DD utiliza algoritmos complejos para calcular la distribucin
ptima de los bits sin ninguna degradacin audible del sonido. Sin embargo, cuantos menos bits se
utilizan en la codificacin para describrir una seal de audio, mayor es el ruido y para solucionarlo Dolby
Digital utiliza las dos tcnicas siguientes:
FILTRADO DIGITAL: tiene lugar en las primeras etapas del proceso en las que la informacin es
fragmentada en 256 bandas de frecuencia. Se pasa la informacin a travs de una serie de filtros de
paso de banda para cada uno de los cinco canales y de esta forma se suprime la mayor parte del
ruido al limitar la respuesta de frecuencia.
ENMASCARAMIENTO: se produce en la etapa de salida para eliminar el ruido residual.

Se usa un sistema de altavoces 5.1 (ver seccin de altavoces)

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 45/65
3.9.3. SUPER AUDIO-CD

Al tiempo que el disco compacto se converta en una instrumento bsico para la reproduccin de msica,
los usuarios requeran mayores posibilidades. Sony y Philips, los inventores del CD, han creado el nuevo
Super Audio CD (SACD).

Un CD de Super Audio parece un CD normal, pero es ah donde acaba toda similaridad, ya que la
diferencia en calidad de sonido es abismal. Hace uso de la tecnologa de codificacin Direct Stream
Digital (DSD). Por ejemplo, la respuesta en frecuencia proporcionada por DSD es casi 5 veces mayor que
la proporcionada por un CD normal. Adems, con un rango dinmico de 120 dB, comparado con los
96dB del CD, el Super Audio CD supera incluso los lmites auditivos humanos.

Existen varios tipos de Super Audio CDs. Los CDs de Super Audio de una capa tienen una capa de
informacin para ser reproducida en lectores de Super Audio CD. Los CDs de Super Audio duales
contienen una doble capa de informacin para lectores de Super audio CD. Por otro lado, los CDs de
Super Audio hbridos poseen adems una capa de datos que pueden ser usados por un lector de CD.

A continuacin describiremos las tecnologas empleadas en el Super Audio CD.

Codificacin Direct Stream Digital (DSD)

Surge del estudio de los problemas de la codificacin PCM para audio digital. Conforme se aumenta el
bitrate y las frecuencias de muestreo se obtienen mejores resultados, pero esas mejoras son cada vez
menores. El motivo? PCM requiere filtrar cualquier seal por encima de la frecuencia de muestreo. Por
ello, se hace necesario aadir ruido de re-cuantizacin mediante procesos de decimacin e interpolacin.
En DSD se eliminan estos dos procesos al capturar la seal de audio digital de forma diferente. El proceso
es el siguiente. En primer lugar, se convierte la seal analgica a digital usando la modulacin delta-
sigma (con una frecuencia de muestreo 64 veces superior a 441kHz) para obtener una seal de audio
digital de 1 bit, que es directamente grabado por DSD.



Disco multicanal

La existencia de mltiples canales es una caracterstica clave de Super Audio CD, esto es, no se limita a
grabar slo el estreo izquierdo y derecho. Existen reas separadas de datos para proporcionar contenido
estreo y multicanal. Asimismo, se ha reservado un rea extra de datos para expansiones del formato
para introducir informacin como letras, crditos, imgenes, etc.

Proteccin de contenido
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 46/65

PSP-PDM (Pit Signal Processing- Physical Disc Mark): Es un tipo de huella invisible difcil de ser
escrita en un disco grabable, ya que requiere ser pasterizada con equipo especializado para Super
Audio CD. Se usa para controlar la reproduccin y para controlar el acceso al contenido.

Control de Acceso al Contenido: Se hace uso del algoritmo synchronous stream cypher para
encriptar los datos. Este algoritmo hace uso de la clave PSP-PDM y de los valores iniciales, que se
encuentran en los ICs son privados para cada IC.

Control de Acceso al Disco: Los lectores necesitan cierta informacin que se encuentra escondida
en el disco, por lo que un reproductor que no cumpla los requisitos no podr reproducir el disco.

Control de Reproduccin: Slo se permite la reproduccin DSD si se encuentra la huella PSP en el
disco.

Comparativa entre Super Audio CD y CD

Aspecto Super Audio CD CD
Dimetro (mm) 120 120
Grosor (mm) 12 12
Tamao pista(micras) 074 16
Capacidad (Mbytes) 4700 780
Longitud de onda (nm) 650 780
Apertura numrica 06 045
Codificacin Audio DSD PCM Lineal
Frecuencia de muestreo (kHz) 28224 441
Tamao unidad sampleo (bit) 1 16
Canales 2,3,3.1,4,4.1,5,5.1 2
Pistas 255 99
ndices 255 99
Tiempo de reproduccin estreo 109 74
Tiempo de reproduccin multicanal 70-80 -
Datos adicionales (kbps) 73-900 432
Rango de frecuencias (Hz) DC-100000 (DSD) 5-20000
Rango dinmico (dB) >120 96


3.9.4. HDCD

El High Definition Compatible Digital HDCD fue desarrollado en 1996 por la empresa californiana
Pacific Microsonics Incorporated para mejorar la calidad del CD manteniendo la compatibilidad con el
mismo. En septiembre de 2000 la compaa - y consecuentemente su tecnologa - fue adquirida por
Microsoft. Gracias a una ingeniosa tcnica de codificacin, el HDCD consigue cuantificar 20 bits en
lugar de los 16 de un CD normal. Como resultado se consigue una dinmica de hasta 120 dB, 24dB ms
que en el CD. El sistema tambin mejora la respuesta en frecuencia y reduce al mnimo la distorsin
gracias al uso de filtros anti-aliasing que se ajustan automticamente en funcin del tipo de seal a
tratar. La gran ventaja del HDCD es su total compatibilidad con los reproductores normales de CD,
aunque para disfrutar de la calidad mejorada es necesario que el reproductor incorpore el decodificador
HDCD.

3.9.5. DVD-Audio

La creciente popularidad de los sistemas surround en los hogares ha estimulado el crecimiento del uso de
DVDs lo cual ha provocado que cada vez ms consumidores quieran su msica en este formato. DVD
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 47/65
and SACD ofrecen sonido surround, pero slo DVD ofrece contenido multimedia. El grupo de trabajo
WG4 del Forum DVD desarroll la especificacin DVD-Audio, que fue originalmente lanzado en Marzo
de 1999, pero que tard un ao en incorporar mecanismos de proteccin anticopia y huellas digitales. Las
caractersticas principales del DVD-Audio son:

Audio multicanal de alta calidad con proteccin anticopia
Reproduccin de CDs
Amplio abanico de niveles de calidad y canales flexibles para el propietario de los contenidos.
Extensible
Contenidos de valor aadido como vdeos, textos, mens, etc.
Sistema de navegacin amigable
Conexin a Internet para obtener la informacin ms reciente para el ttulo

Los discos DVD-Audio son fsicamente idnticos al DVD-Video y al DVD-ROM, pero los ficheros de
datos son diferentes. El Frum DVD ha considerado un formato hbrido DVD en adicin de los formatos
DVD/-5/-9/-10, etc, pero existen problemas de compatibilidad. Como resultado es probable que se
introduzca un formato de doble cara DVD Plus para proporcionar la compatibilidad CD.

Estructura de un Disco DVD-Audio

Los datos en un DVD-Audio estn compuestos de objetos de audio e informacin de gestin como
ficheros de datos contenidos en el directorio AUDIO_TS. Los datos de vdeo adicionales en un DVD-
Audio estn compuestos por archivos de vdeo contenidos en el directorio VIDEO_TS y cumpliendo un
subconjunto de las especificaciones DVD-Video. Debido a las limitaciones de ancho de banda, no es
posible almacenar audio y vdeo de alta calidad en una misma secuencia AV en un disco DVD. El
siguiente diagrama ilustra un disco DVD-Audio con contenido adicional DVD-Video.


Los datos de audio ocupan un flujo sin otros posibles flujos de datos. Por lo tanto, no es posible
entremezclar audio con otros datos como puedan ser imgenes. Estos y otros datos deben ser pre-
cargados en el reproductor antes de sonar el audio o en los perodos de silencio.

Grupos y Pistas

Cada cara de un disco DVD-Audio se llama lbum. Cada lbum se subdivide en un mximo de 9 grupots,
cada grupo en 99 pistas y cada pista en 99 ndices. Para facilitar la navegacin existe una capa adicional
entre grupos y pistas conteniendo los ttulos del audio (ATTs). Son entidades lgicas empleadas para
asignar pistas a grupos. Un grupo puede contener uno o ms ATT y cada ATT puede unir una o ms
pistas. Un ATT puede ser usado para reproducir slo s de audio o contenido de vdeo. Los ATTs son
ignorados por reproductores slo audio.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 48/65



Se han definido dos versiones del formato DVD-Audio, uno para slo audio y otro para audio y vdeo., lo
que da a lugar a un total de 3 formatos, que son listados a continuacin.
Formato Contenido
DVD-Audio (no
video)
Disco de audio con texto, mens e
imgenes opcionales
DVD-Audio (con
vdeo)
Aade vdeo (subconjunto de la
especificacin DVD-Vdeo)
DVD-Video Vdeo sin contenido DVD-Audio
Hbrido DVD-Audio y DVD-Vdeo ms una capa CD.

Parmetro Audio
Codificacin LPCM o MLP
Frecuencia de muestreo (kHz) 44.1/48/88.2/96/ 176.4/192
Bits por muestra 16/20/24
Canales mximos 6 (@ 96 kHz) o
2 (@ 176.4/192 kHz)
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 49/65
Bitrate mximo 9.6 Mb/s

Grupos de canales

El bitrate mximo para audio es96 Mb/s, lo que indica que la frecuencia de muestreo para mltiples
canales est limitado a 96khz o menos. Para aprovechar al mximo el ancho de banda disponible, se
puede codificar el DVD-Audio como dos grupos de canales con diferentes parmetros por grupo. Los
grupos pueden ser usados para 3 o ms canales.


Parmetro Grupo de canales 1 Grupo de canales 2
48kHz 48kHz
96kHz 96 o 48kHz
44.1kHz 44.1kHz
Frecuencia de muestreo
88.2kHz 88.2 o 44.1kHz
16 bits 16 bits
20 bits 20 o 16 bits
Bits por muestra
24 bits 24, 20 o 16 bits
Para frecuencias de muestreo de 176.4 y 192 khz, el nmero de canales es dos o menos, por lo que slo se
podra usar un grupo de canales. El uso de 6 canales audio 96/24 con codificacin PCM implicara un
ratio de 13Mb/s, mayor que el mximo permitido de 96khz. Existe alguna forma de compresin que
acomoda la mayor calidad en sonido surround, el Meridian Lossless Packing, que es fcil de implementar
y que no altera la seal decodificada. La decodificacin MLP requiere pocos recursos computacionales
aun para 6 canales de 24-bits/96khz de audio. Tambin proporciona flexibilidad adicional que permite
optimizar la calidad de reproduccin. Las posibles tasas de muestreo, cuantizacin y nmero de canales
para PCM y MLP se muestran en la siguiente tabla.
Frecuencia de muestreo (kHz) Cuantizacin 2 canales 4 canales 6 canales
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 50/65
44.1/48 16 a 24 LPCM/MLP
96/88.2 16 LPCM/MLP
96/88.2 20 o 24 LPCM/MLP MLP
192/176.4 16 a 24 MLP No

A continuacin se muestran ejemplos de tiempos de reproduccin tpicos para sonido estreo de alta
calidad, sonido surround de alta calidad y sonido estreo de calidad CD.


Tiempo de reproduccin
Canales de audio Configuracin
Capa simple Capa doble
2 canales 192kHz, 24bits 120 mins 215 mins
6 canales 96kHz, 24bits 86 mins 156 mins
2 canales 44.1kHz, 16 bits 13 hrs 23.6 hrs


3.9.6. TABLA COMPARATIVA DE SISTEMAS DE AUDIO DIGITAL
CD HDCD SACD DVD-Audio
Codificacin PCM PCM
PDM (Basado en
DSD)
PCM
Cuantificacin 16 bits 16 bits 1 bit 12 / 16 / 20 24 bits

Capacidad 650Mb 650Mb
1,9Gb Monocapa
3,9Gb Bicapa
2,6Gb - Hbrido
4,7Gb Monocapa
8,5Gb Bicapa
17Gb Bicapa de
Doble Cara
Canales 2 (estreo) 2 (estreo) Hasta 6 Hasta 6
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 51/65
Respuesta en Frecuencia 5 - 20KHz 5 -22KHz 0 -100KHz 0 - 96KHz (max)
Dinmica 96dB 120dB 120 dB 144dB
Frecuencia de Muestreo
(estreo)
44,1KHz 44,1KHz 2.882,4KHz
44,1 / 88,2 /
176,4KHz
48 / 96 / 192KHz
Frecuencia de Muestreo
(multicanal)
no disponible no disponible 2.882,4KHz
44,1 / 88,2KHz
48 / 96KHz
Velocidad de Transferencia de
Datos
1,4Mbps 1,4Mbps 2,8Mbps
Variable hasta 9,6
Mbps


3.10. Sonido en Internet


Anteriormente era comn ver pginas electrnicas sin animacin ni audio, pero hoy en da es comn
visualizar una pagina que tenga una animacin o se escuche un sonido; esta "MULTIMEDIAMANA" en
INTERNET ha obligado tanto a los usuarios como a los diseadores de pginas a estar al tanto en los
diferentes mtodos de incrustacin de audio en las pginas Web, as como las novedades de software de
grabacin y/o reproduccin. Esta revolucin ha hecho que aparezcan aplicaciones de propsito
especfico; por ejemplo, los reproductores de audio en tiempo real, plugins de audio/video, e incluso el
mismo lenguaje de Java, cuyo uso facilita la convergencia de multimedia en INTERNET.

Por ejemplo, si usted busca en INTERNET informacin acerca de escalas de jazz o de blues notar la
gran diferencia entre una pgina que contenga tan solo informacin escrita grfica de las escalas y otra
que adems incorpora un icono que al seleccionarse permite escuchar la escala referida. Las ventajas y el
grado de interaccin aumenta cuando se encuentra pginas en donde el audio es incorporado en tiempo
real lo que permite interactuar con otras personas e intercambiar estudios de msica.

3.10.1. Estrategias de uso del sonido en pginas web

Al entrar a una pgina WWW que contenga audio pueden presentarse las siguientes opciones:

Que el audio se active automticamente al momento de tener acceso a la pgina. Muchas
pginas activan automticamente un archivo de audio en el momento que el usuario la
consulte, con la finalidad de proporcionarle un ambiente agradable o comunicar un mensaje
que hace referencia a algn suceso que la persona puede esperar.
Que el audio se active mediante la seleccin de un icono. Es la opcin ms comn, ya que el
transportar un archivo de audio desde una PC a otra adems de ocupar espacio de disco,
ocupa un considerable tiempo, entonces, esta estrategia da la opcin a la persona de elegir
cuando desea escuchar el archivo de audio.
Que el archivo de audio tenga que ser transportado desde la PC fuente hacia la PC del
usuario. Esta ejecucin generalmente es lenta y depende de la velocidad de la conexin,
adems requiere de un plugin apropiado (por ejemplo el reproductor establecido por
Windows).
Que el archivo de audio al que se hace referencia sea un archivo que pueda ser reproducido
en tiempo real. Esta clase de archivos a diferencia de los mencionados con anterioridad, son
reproducidos casi al instante en que se llaman, requieren aplicaciones que se obtienen en
INTERNET y generalmente son freeware.
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 52/65

En la tabla siguiente se analizan las ventajas y desventajas que para el usuario representan estas
opciones; ya que sern de gran ayuda para seleccionar la forma ms conveniente de incorporar el audio
en las pginas Web.






TABLA COMPARATIVA

Ventajas Desventajas

a).- Al abrir
la pgina
Presentacin audible
mientras el usuario visualiza
la pgina
La calidad del sonido no se
pierde, se reproducen como
fueron creados
Ocupan tiempo antes de presentar la
pgina, esto pueden desesperar al usuario.
Ocupan espacio de disco duro.
Puede ser que el archivo sea de un
formato que el visualizador no pueda
reproducir



1.-
Archivos
transportables



b) - A eleccin
La pagina no se vuelve lenta
El usuario puede saber si
cuenta con el software
necesario para la
reproduccin
Dan la opcin al usuario de
elegir el archivo que desea
escuchar cuando el desee
La calidad del sonido no se
pierde, se reproducen como
fueron creados
El usuario tiene que esperar a que el
archivo sea transportado en su totalidad, esto
implica tiempo



a).- Al abrir
la pgina
La pgina no se vuelve lenta
y casi es visualizada en el
momento en que se
escucha el audio

Puede que no se cuente con el
software necesario para la
reproduccin, cosa que se
soluciona fcilmente ya que la
mayora de los reproductores son
gratuitos y se encuentran con
facilidad en la Web
La calidad del sonido vara segn
el propsito, y la velocidad de la
red





2.-
Archivos en tiempo
real


b)- A eleccin
Presentan las ventajas del
punto 1.b ms aparte
elimina la desventaja de
dicho punto, es decir, el
archivo no ocupa ni espacio
en el disco duro y la
reproduccin es casi
instantnea
Algunos reproductores
tienen la opcin de
adelantar - regresar o
detener en el momento que
se desee
Puede que no se cuente con el software
necesario para la reproduccin, cosa que se
soluciona fcilmente ya que la mayora de los
reproductores son gratuitos y se encuentran
con facilidad en la Web
La calidad del sonido vara segn el
propsito, y la velocidad de la red


Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 53/65
3.10.2. Grabacin de sonidos para pginas web

La forma de grabar un archivo para ser incorporado en la Web depende tanto del hardware como
del software disponible, as como el contenido del mismo. Lgicamente es necesario que la PC donde se
va a realizar la grabacin posea una tarjeta de sonido cuyos requerimiento dependen de lo que se desea
grabar, por ejemplo, si desea grabar archivos MIDIs debe tener el llamado MIDI interface. Existen
diferentes software que pueden ayudarle, se recomienda uno de excelente calidad y que esta disponible
como shareware, el GoldWave; este programa lo puede conseguir en diferentes pginas de la Web.

Una de las recomendaciones al grabar un sonido que va ha ser incorporado en la Web y que no va a
ser de tiempo real son las siguientes:

Realizarlo en el formato preferido.
Que no ocupe mucho espacio, procure que sean cortos ya que entre mas largos ocupan una
cantidad de tiempo para ser transportados, cosa que puede frustrar al usuario.
Si va a incluir solo msica, realice una grabacin en formato MIDI, o bien busque en la Web
alguno de ellos ya que existen una infinidad de archivos disponibles.
La grabacin de archivos en tiempo real depende del encoder que est utilizando, la mayora de ellos
realiza slo conversin de un archivo .wav al formato especfico.

3.10.3. Ejemplos de insercin de sonido en web

Comando en HTML

<EMBED>: Este comando delimita un cuadro que permite la insercin de objetos directamente en la
pgina HTML. Los objetos incluidos son manejados por aplicaciones externas a la pgina, algunas
aplicaciones adicionales: WebFX, Paper Software para ver dos mundos VRML (Virtual Reality Modeling
Language), Adobe Acrobat para documentos PDF,y macromedia directo para multimedia, en nuestro
caso, nos referiremos a aplicaciones de audio exclusivamente.

Atributos

SCR. Localizacin del archivo

ALIGN. Alinea el objeto en la pgina (top, middle, bottom, baseline)

HEIGHT. Altura del objeto

WIDTH. Ancho del objeto

Autostart. Permite decidir la ejecucin automtica o manual.

Ejemplo de uso del formato del comando:


<EMBED SRC="BLUES.MID" height="60" width="144" autostart="true" >


SCR declara que el archivo de audio que se va a ejecutar se llama BLUES.MID y se encuentra en el
directorio junto con el archivo HTML o dentro de la trayectoria de bsqueda (path) .

HEIGHT y WIDTH dan la dimensin del cuadro (objeto,frame), si se desea que no sea visible el
cuadro asigne el valor de cero tanto al height como al width.

AUTOSTART ="TRUE". Indica que al consultar la pgina, automticamente abre la aplicacin y
ejecuta, el archivo mencionado, si se omite la condicin autostart por defecto asume el valor de "FALSE"
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 54/65

Microsoft Word/Frontpage

Microsoft Word/Frontpage permite interactuar con la Web, editar y disear pginas Web. En este
caso para agregar sonido utilice la opcin INSERTAR, SONIDO DE FONDO o bien INSERTAR, OBJETO,
ARCHIVO DE SONIDO.

Macromedia Dreamweaver

Para insertar un archivo de audio en un documento tienes que dirigirte al men Insertar, Meda,
opcin Plug-in. En Dreamweaver no se mostrarn los controles de audio. Todos los archivos que son
insertados como plug-in aparecen representadas dentro de Dreamweaver por una imagen. En el
inspector de propiedades pueden establecerse la altura y la anchura con la que se mostrarn los controles
de audio, medante Al y An.

En el caso de no especificar ningn tamao, se mostrar el tamao por defecto de los controles, como
ocurre en el ejemplo de arriba. Si lo que se desea es que se escuche el sonido en la pgina, pero que no se
muestren los controles de audio, los campos Al y An deben valer cero.

Los sonidos se reproducen automticamente al cargarse la pgina, y se reproducen solamente una
vez. Estos valores no pueden cambiarse a travs del inspector de propiedades, pero s a travs del cdigo.

Por ejemplo, el archivo anterior apareca en el cdigo como <embed
src="varios/audio.MID"></embed>. Pero para que no se reprodujera automticamente se ha aadido
autostart="false", y para que se reprodujera continuamente se ha aadido loop="true".

La lnea de cdigo del archivo de audio a quedado del siguiente modo:

<embed src="varios/audio.MID" autostart="false" loop="true"></embed>

Para poder hacer que el audio pueda activarse y desactivarse cuando no se muestran los controles, es
necesario insertar una serie de comportamientos que se encarguen de esa tarea.

Si quieres poner musica de fondo en una pgina web, sin que aparezcan los controles de audio,
puedes escribir este cdigo directamente en la vista Cdigo.

<bgsound src="cancion1.wav" loop="-1">

Insrtalo despues de la etiqueta </title> Con el parmetro loop puedes decidir cuantas veces quieres
que se reproduzca, 1, 2, 3 ... (con -1 se reproduce de modo continuo).


3.10.4. Streaming

La tecnologa de Streaming ha cambiado la forma de ver la web, de una perspectiva esttica basada
en texto y grficos a una experiencia multimedia poblada de sonidos y vdeos. Esta tecnologa tiende a
convertirse en un estndar de distribucin y difusin de todo tipo de medios, incluyendo televisin, radio
y cine. El bajo coste, conveniencia, alcance, y simplicidad tcnica de usar un estndar de comunicaciones
globales hace irresistible la transmisin web tanto a corporaciones como a individuos. El streaming
comprime en primer lugar un fichero de audio digital y lo trocea en pequeos paquetes, que son
enviados, uno tras otro, a travs de Internet. Cuando los paquetes llegan al usuario destinatario, se
descomprimen y se unen de manera que puedan ser reproducidos por el sistema. Para mantener la
continuidad de la reproduccin, los paquetes se guardan en un buffer de forma que se reciben un nmero
de ellos antes de comenzar la reproduccin. Mientras se reproducen los paquetes almacenados en los
bferes o precargados, se estn descargando o encolando para ser reproducidos. Sin embargo, si el flujo
de paquetes es lento debido a una congestin de red, puede ocurrir que no haya nada para reproducir.
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 55/65

Protocolos de streaming

El gran cambio que permiti la revolucin del streaming fue la adopcin del protozoo UDP (User
Datagram Protocol) y las nuevas tcnicas de codificacin que compriman ficheros de audio en
minsculos paquetes de datos. UDP posibilit el streaming al transmitir los datos de manera ms
eficiente que los protocolos anteriores del servidor al cliente. Esta transmisin ha ganado en eficiencia
con el desarrollo de protocolos ms recientes como el RealTime Streaming Protocol (RTSP). UDP y RTSP
son ideales para la transmisin de audio puesto que su prioridad es el flujo continuo ms que la
seguridad de la transmisin. Cuando se pierde un paquete UDP de audio, el servidor sigue enviando
informacin en vez de detenerse, con lo que no se suele apreciar gran prdida en el oyente en condiciones
normales.
Algunas tecnologas de streaming como RealAudio o Windows Media usa servidores dedicados que
soportan la transmisiones UDP y RTSP. Otros formatos tales como Shockwave, Flash, MIDI, y
QuickTime son diseados para emitir a partir de un servidor web HTTP estndar. Mientras estos
formatos son ms baratos y por lo general ms sencillos de usar al no requerir la instalacin de un
servidor nuevo, no se suelen utilizar en emisiones profesionales que requieren dar servicio a miles de
oyentes simultneamente.

Compresin con prdida

Aparte de los avances en los protocolos de transmisin UDP y RTSP, el streaming no sera posible
sin la rpida innovacin en algoritmos de codificacin y codecs que (des)compriman datos de audio y
vdeo. Por ejemplo, un minuto de audio en calidad CD estreo requiere unos 10MB. Adems, existen
limitaciones en el ancho de banda de comunicaciones. Para emitir usando un ancho de banda limitado, el
audio ha de ser comprimido y optimizado con codecs. En general, los esquemas de compresin se
pueden clasificar como con prdida y sin prdida. Los esquemas de compresin con prdida reducen
el tamao de los ficheros descartando algunos de los datos producidos durante la codificacin previa al
envo por internet. En audio, se descartan las frecuencias por encima y por debajo del espectro e intenta
localizar y eliminar datos de audio innecesarios. Suele reducir el tamao en un ratio 10:1. La voz humana
suele estar en el rango de frecuencias 1000Hz-4000Hz, aunque debido a las propiedades del sonido suele
extenderse hasta 7000Hz para evitar perder claridad y que el sonido suene natural. Algunas voces y
sonidos pueden alcanzar mayores rangos de frecuencias, por lo que pueden perderse parcial o
totalmente.

Compresin sin prdida:

La compresin sin prdida divide los datos en paquetes de informacin ms pequeos sin descartar
datos permanentemente, sino que construye un mapa con el cual el codec puede reconstruir el fichero
original. Se obtiene mejor calidad de audio pero peor ratio de compresin. El cdec con prdidas tiene
reglas generales para reconstruir el mensaje, bsicamente aadir vocales y espacios para formar palabras
en un lenguaje humano. En algunas ocasiones puede existir ms de una posibilidad para una vocal o
para determinar la separacin entre palabras. Los cdecs sin prdida reconstruyen el mensaje
perfectamente al disponer de un conjunto de reglas mucho ms sofisticado. Son difciles y caros de
desarrollar, y requieren gran poder computacional, y no se consigue ahorrar tanto espacio como los
mtodos con prdida, por lo que en muchas ocasiones es ms rentable usar compresin con prdida.


Formato de Streaming

Existen actualmente ms de una docena de formatos de streaming para audio en la Web, desde lo
ms usados como RealNetworks' RealAudio, streaming MP3, Macromedia Flash y Director Shockwave,
Microsoft Windows Media, y Apple's QuickTime, a formatos ms recientes que sincronizan sonidos con
eventos en una pgina web como RealMedia G2 con SMIL y Beatnik's Rich Music Format (RMF).
Tambin podemos incluir formatos tales como Liquid Audio, MP3, MIDI, WAV, y AU. Nos centraremos
en los no tratados hasta el momento.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 56/65
RealMedia/RealAudio

RealMedia es posiblemente el formato de streaming ms popular en la Web. Su popularidad se debe
en gran medida al hecho de que fue la primera tecnologa de streaming, pero tambin al esfuerzo de
RealNetworks por conseguir una tecnologa fcil de usar, que de soporte a las nuevas tecnologas
multimedia y funcione tanto bajo plataformas Windows como UNIX. Es el formato preferido por los
profesionales que buscan controles avanzados para servir y gestionar grandes cantidades de flujos de
audio. Y es problable que atraiga tambin a los desarrolladores de Web que usen el sistema RealSystem
G2 y SMIL para sincronizar presentaciones multimedia a travs de la red. La mayor ventaja de G2 es su
capacidad para simultanear el envo de mltiples tipos de medios como ficheros separados en vez de un
solo fichero RealMedia, lo cual simplifica la actualizacin de contenidos, puesto que se puede
simplemente modificar uno de los elementos de la presentacin. Esta tecnologa permite que cada usuario
reciba la mejor calidad de sonido a la velocidad que le permita su conexin, detecta y compensa prdida
de paquetes manteniendo la reproduccin continua, emisiones multicast, etc. Real Media espera la
peticin de un oyente para comenzar el streaming de los datos, lo cual facilita que se enve al cliente
paquetes del tamao adecuado a su conexin, pero esto tambin hace que haya un tiempo de espera entre
la peticin y la recepcin del servicio, un tiempo que se nota ms en sonidos interactivos relacionados con
una pgina web como transiciones entre pginas. Por ello, podemos decir que RealMedia no es muy
adecuado para presentaciones con efectos de sonido interactivos y bucles de sonido. A pesar de las
mejoras con el sistema G2, queda por detrs de Flash y Shockwave en este apartado.


Windows Media Technologies (Netshow)

Microsoft Windows Media Technologies para NT/Windows 2000 incluye una suite de herramientas
de autor y servicios de streaming para emisin de audio, vdeo, animacin y otros contenidos multimedia
a travs de Internet. Las presentaciones Windows Media se reproducen con el Windows Media Player,
que reproduce la mayor parte de tipos de streams incluyendo el Advanced Streaming Format (ASF) de
Microsoft, MPEG, WAV, AVI, QuickTime, y RealAudio/RealVideo. Este reproductor est muy difundido
al distribuirse conjuntamente a Windows. Los servicios de Windows Media ofrecen las siguientes
ventajas:

Permite una mejor reproduccin en mquinas Windows. Para conseguir una mejor
reproduccin de contenidos multimedia a travs de la Web y evitar los problemas relacionados
con la descarga de plug-ins, Microsoft tiende a integrar Windows Media Player e Internet
Explorer en el sistema operativo.

La integracin de Windows Media Server con Microsoft Site Server permite las modalidades
de pago por visin y pago por minuto, anlisis de uso e insercin personalizada de anuncios.

Integracin de herramientas para seguir el comportamiento con Windows NT Event Viewer
and Performance Monitor, facilitando a los administradores del sistema la gestin del
Windows Media Server.

Para desarrolladores de contenido multimedia, Microsoft proporciona herramientas de autor
tiles.


Sin embargo, presenta desventajas con respecto a RealMedia:

Se ejecuta sobre Windows NT/2000, aunque existen muchas quejas respecto de la estabilidad
de Windows NT para aplicaciones como la transmisin en directo durante 24 horas.
No soporta Macromedia Flash o el estnda Synchronized Multimedia Integration Language
(SMIL).

Tambin existen algunas diferencias clave en la forma en que Windows Media y Real Media codifican y
emiten contenido multimedia. Con RealMedia podemos crear presentaciones multimedia usando el
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 57/65
lenguaje SMIL para enlazar varios medios, que son codificados como ficheros independientes:
RealAudio, RealVideo, RealPix, RealText, QuickTime, MPEG, etc. El RealServer distribuye la
presentacin como ficheros separados que unir SMIL.

Windows Media incluye todos los medios en un fichero ASF. De acuerdo con Microsoft, cualquier
objeto se puede colocar es un stream de datos ASF, incluyendo audio, vdeo, scripts, controles Actives y
documentos HTML con T.A.G. Autor (herramienta de autor de Microsoft). Este enfoque, similar a Flash y
Shockwave, es menos flexible en trminos de actualizacin y servicio de contenidos, pero ofrece una
reproduccin ms estable


QuickTime

Apple Computer QuickTime permite la transmisin y reproduccin de vdeo, audio, animacin,
imgenes 3-D y panormicas para sistemas Mac y Windows. La tecnologa QuickTime 4 permite las
siguientes mejoras:
Arquitectura de componentes de cdec ms pequeos, de forma que se reduce la descarga
inicial a 17 MB. Los cdecs adicionales se descargan de forma transparente en segundo plano
cuando son necesarios.
Soporte para ms formatos incluyendo MP3, Flash, MIDI y casi cualquier formato de audio,
vdeo, animacin, 3-D y realidad virtual.
Mejora de cdecs.
RTSP streaming cuando se usa conjuntamente con el Mac OS X Server.

Una de las claves del xito de la tecnologa QuickTime y plug-ins es que puede manejar todos los
tipos de medios, lo cual es una ventaja para aquellos que quieren llegar a un gran nmero de usuarios y
el menor nmero de plug-ins posible. Adems de la reproduccin de contenidos MP3, QuickTime
soporta pistas Timecode as como MIDI, incluyendo las extensiones Roland Sound Canvas y GS. Tambin
soporta los estndares para streaming web como HTTP, RTP, y RTSP. Incorpora posibilidades para vdeo
digital, incluyendo MiniDV, DVCPro, DVCam, AVI, AVR, MPEG-1 y OpenDML.

Flash and Director Shockwave

Macromedia Flash es la solucin para multimedia web de gran escala y alto impacto con efectos
de sonido y bucles. Flash codifica el sonido en formato MP3, que permite realizar streaming de manera
eficiente y con gran calidad de audio. Flash est altamente integrado con RealMedia. Se puede combinar
una animacin Flash con una banda sonora RealAudio usando las herramientas RealDeveloper para
codificar una presentacin RealFlash. RealFlash permite la reproduccin lineal haciendo uso de la
arquitectura RealMedia, aprovechando las posibilidades de negociacin de ancho de banda de RealMedia
para el streaming de audio y vdeo y los grficos vectoriales de Flash para animaciones interactivas.

Director Shockwave es el formato ms popular para realizar presentaciones interactivas tipo CD-
ROM y juegos que utiliza el potente lenguaje de scripting Lingo de Macromedia. Fue diseado
originalmente para desarrollos de contenidos interactivos para CD-ROM, Director se ha convertido para
producir presentaciones Web Shockwave altamente interactivas.

Aunque Macromedia integra la tecnologa vectorial de Flash en Director y algunas caractersticas
avanzadas de programacin de Director en Flash, Flash no incorpora Lingo para preservar la facilidad de
uso y el tamao compacto de los plug-ins. Lingo es un lenguaje de scripting que permite crear y
personalizar contenidos interactivos tales como juegos complejos de estrategia, vdeos musicales y
herramientas educativas.

Beatnik Rich Music Format (RMF)

Beatnik Rich Music Format (RMF) es un formato basado en HTML que usa lenguajes comunes de
scripting como Javascript para sincronizar sofisticadas bandas sonoras interactivas que combinan sonidos
MIDI y pequeas muestras de audio al contenido web. Permite crear bandas sonoras y composiciones
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 58/65
que cambian con las acciones del usuario. Presenta una serie de ventajas respecto de Shockwave y Flash.
Por un lado, usa MIDI, por lo que con un mismo tamao de fichero (15-30KB), mientras que en Flash
dispondramos de un bucle de sonido de 2 segundos, tendramos varios minutos MIDI. Beatnik ser
posiblemente ms estable y fiable cuando se refine la tecnologa y ms herramientas de autor incluyan el
soporte para el Javascript incorporado.

Liquid Audio

Liquid Audio proporciona una solucin completa para transmisin segura de msica a travs de
Internet. Ms que una formato para aadir audio a una pgina web es una utilidad profesional para venta
y distribucin de msica. Consiste de cuatro productos base: Liquifier Pro, Liquid Server, Liquid Player,
y Liquid Express. Cada componente del sistema Liquid Music ha sido diseado para la distribucin
electrnica de msica:

Liquifier Pro : Es un codificador que permite preparar y publicar msica con calidad CD y proteccin
anticopia para venta y distribucin va Internet. Incluye funciones DSP tales como ecualizacin
paramtrica en 4 bandas o procesamiento de la dinmica, y ofrece la posibilidad de incluir letras y
crditos en un nico fichero de audio. Lo que lo distingue de otros codificadores es su huella digital y
proteccin antipiratera.

Liquid Server: Permite la publicacin y alojamiento de Liquid Tracks. Incluye una base de datos SQL
(Informix, Oracle). Su diseo flexible permite enviar dinmicamente informacin promocional como
precios, fechas de giras, descuentos, etc.

Liquid Player : Permite la previsualizacin y compra de Liquid Tracks en plataformas Mac o Windows a
travs de Internet. Permite ver simultneamente con la reproduccin grficos de lbumes, letras o
promociones, as como grabar un CD audio normal para reproducir en cualquier lector.

Liquid Express : Diseado especialmente para profesionales del audio en cine, radio, televisin,
publicidad e industria musical que permite que en tiempo real y de manera segura se previsualice,
apruebe, distribuya y se archive audio.

Liquid Audio tambin soporta distribucin MP3 usando su tecnologa de proteccin, que aade
informacin de copyright y seguridad a los ficheros distribuidos por Internet.

Eleccin del formato adecuado

Cada formato presenta sus ventajas e inconvenientes dependiendo de los requisitos del proyecto. No
hay ningn formato ideal para todas las situaciones. Para la eleccin del mejor formato, deberemos
identificar nuestras necesidades y entonces seleccionar el formato que mejor se ajusta a ellas. Hay grandes
diferencias en los requisitos de servidor para transmitir msica en calidad CD a una audiencia limitada
frente a la transmisin a gran escala con una gran audiencia de diversos anchos de banda. Asimismo,
existen diferencias relacionadas con el tipo de contenido a difundir, bien un juego o demo o un archivo de
audio. RealAudio, MP3, y Flash son nombres familiares pero puede ser que alguno de los formatos
alternativos como Windows Media, RMF, o Liquid Audio se adapten mejor. Veamos a continuacin los
factores que determinarn la idoneidad de los formatos.

Diseo de sonidos interactivos :En primer lugar debemos determinar si necesitamos un formato que
soporte presentaciones interactivas o uno que reproduzca audio y vdeo de manera continua. Muchos
formato como Flash, Shockwave, y Beatnik estn diseados para contenidos interactivos como juegos,
material educativo, demos y elementos promocionales donde los efectos de sonido son esenciales.
Formatos como RealMedia, MP3, Windows Media, y QuickTime estn pensados para la reproduccin
continua de los medios y tienen muy limitadas las capacidades para soportar interactividad.

Compatibilidad del navegador: Si los usuarios no disponen del plug-in o la tecnologa para acceder a
los contenidos se complica nuestra tarea de difusin.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 59/65
Coste: Para aadir streaming a nuestro sitio web, necesitaremos los siguientes elementos: a)
software para codificar ficheros de audio en el formato de distribucin; b) software y hardware servidor
dedicado a la difusin de los contenidos; c) ancho de banda para la difusin;

Curva de aprendizaje y documentacin: RealMedia, por ejemplo, tiene mucha documentacin y
soporte para el software, incluyendo herramientas para la configuracin automtica del servidor. Por el
contrario, otros formatos tales como MP3 y MIDI son nicamente estndares que no poseen una nica
fuente de documentacin y soporte.

Escala de la distribucin: No se tienen las mismas necesidades si queremos difundir el balance anual
de la compaa a los representantes de ventas que intentar convertirse en la emisora ms popular de
Internet. La diferencia en la infraestructura necesaria para transmitir a unos pocos cientos de oyentes por
da frente a decenas de miles es como la noche y el da. Asimismo, la curva de aprendizaje no ser lo
mismo si usamos el Basic RealServer gratuito o enviamos ficheros de audio usando nuestro servidor http
que si vamos a realizar emisiones profesionales que requieren configuraciones avanzadas y logstica
complicada.

Fidelidad y compresin de audio

La fidelidad queda determinada por la calidad del cdec usado para la compresin y descompresin
de audio. Los mejores algoritmos de compresin, como MP3, obtiene una mejor fidelidad de audio para
una misma velocidad de conexin. Tambin depende del tamao del fichero y los parmetros usados al
codificar el archivo origen.

Rendimiento para anchos de banda reducidos: Algunos formatos, como RealMedia son muy buenos
en cuanto a compatibilidad de navegadores y ancho de banda. Otros formatos como Shockwave y Flash
rinden mejor con banda ancha y apenas si ofrecen posibilidad de negociacin de velocidad.

Existen otros dos factores a tener en cuenta al elegir un formato para clientes lentos: la habilidad
inherente al formato de proporcionar contenido convincente con ficheros pequeos y la tecnologa del
servidor para gestionar la distribucin de medios con restricciones de velocidad. Beatnik empaqueta
mucho contenido en un tamao bastante reducido al usar MIDI, lo cual le da cierta ventaja frente a
Shockwave o RealMedia en cuanto a ancho de banda. Por otra parte, RealMedia proporciona mejor
soporte de servidor para asegurar la distribucin exitosa de los contenidos.


Rendimiento del servidor y calidad del software: Aquello que necesiten difundir contenidos a miles
de oyentes de forma simultnea necesitarn un formato que proporcione facilidades y herramientas de
servidor potentes. Si queremos emitir eventos en directo, necesitaremos una codificacin en tiempo real y
un sistema de streaming que funcione en un servidor web dedicado. Las tecnologas lderes para
emisiones de gran escala son RealMedia y WindowsMedia, seguidas por SHOUTcast (MP3) y
QuickTime. El RealServer y el Windows Media Server proporcionan negociacin de ancho de banda que
asegura la reproduccin continua para el oyente. Por ltimo, las transmisiones de gran escala requieren
mltiples sistemas, servidores y conexiones de gran ancho de banda. Por ello muchas compaas
subcontratan la distribucin de contenidos a empresas especializadas.

3.11. Herramientas para el tratamiento de audio

3.11.1. Editores

Wavelab

Wavelab es posiblemente el editor de audio ms importante del mercado para PCs. A continuacin
enumeramos algunas de las caractersticas principales de esta aplicacin.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 60/65
Procesamiento en tiempo real con 32 bits de precisin.
Soporte para ficheros de 8, 16, 20, 24 y 32 bits hasta 192kHz.
Soporte para formatos wav, aiff, au, ensoniq paris 24 bit, sound designer II, mp3, sun/java, etc.
Almacenamiento en segundo plano.
Base de datos profesional para archivos de audio.
Comparacin y anlisis de ficheros de audio.
Optimizado especialmente para Pentium IV, III, II y MMX.
Aplicaciones de telefona.
Anlisis en tiempo real de seales de audio: Nivel/Pan, Fase, Analizador de espectro de 60
bandas, FFT-Meter, Onda, BitMeter.
Compresin multibanda.
Atenuador de voces.
Externalizador (simulador de altavoces para auriculares)
Efectos de reverberacin, eco o coro.
Procesamiento de clips con hasta 10 efectos virtuales.
Solapamiento inteligente para evitar la cancelacin de fase.
Divisin de archivos de audio atendiendo a varios criterios.
FFT tri-dimensional





SoundForge

SoundForge es un editor digital de audio que incluye un potente conjunto de procesos,
herramientas y efectos de audio para grabar y manipular audio. Permite editar audio, grabar audio,
procesar efectos y codificar contenidos. Entre las caractersticas de SoundForge podemos destacar:

Edicin rpida no destructiva de audio
Multitarea en segundo plano.
Efectos de audio: Ms de 35 efectos de audio, incluyendo plug-ins para DirectX Audio. Incluye 3
EQs, modulacin en amplitud, coro, retraso/eco, distorsin, dinmica, compresin/expansin de
tiempo, flange, pitch bend, reverberacin, etc.
Zoom hasta 24:1, lo que permite una edicin ms precisa.
Soporte para ficheros de 32 y 64 bits y 192 kHz.
Soporta un amplio rango de formatos de audio, incluyendo 15 formatos para importar y 17 para
exportar, incluyendo WAV, Windows Media Audio/vides, MPEG-1/2, RealAudio y MP3.
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 61/65
Permite la creacin de masters de audio de alta calidad a travs de las herramientas
WaveHammer, que incluyen un compresor y maximizador de volumen, que permite limitar el
rango dinmico del audio.
Posee una herramienta de anlisis de espectro para estudiar las formas de las ondas por
frecuencia y ayuda a identificar problemas de ruido. Realiza un anlisis FFT preciso y muestra
los datos obtenidos en dos formatos grficos. Se puede usar el grfico del especto para
monitorizar la entrada o reproduccin en tiempo real.




Audacity

Audacity es un editor de audio gratuito. Puedes grabar sonidos, reproducir sonidos, importar y
exportar archivos WAV, AIFF, y MP3, y ms. Utilzalo para editar tus sonidos usando Cortar, Copiar y
Pegar (con ilimitados Deshacer), mezclar pistas, o aplicar efectos a tus grabaciones. Tambin posee un
editor de envolvente de amplitud propio, un modo espectograma ajustable a medida y una ventana de
anlisis de frecuencia para aplicaciones de anlisis de audio. Efectos propios incluidos Bass Bost
(Realzador de Graves), Wahwah, y Removedor de Ruido, y tambin soporta efectos plug-in VST.

Audacity versin 1.0.0 es la versin ms estable que hemos lanzado hasta ahora, y mucha gente ha
encontrado que sus capacidades nicas y su interface intuitiva hacen que su uso sea ms agradable que el
de otros editores de audio, incluyendo editores comerciales.

Los desarrolladores de Audacity hemos lanzado tambin la versin 1.1.0, la cual es un anticipo con
calidad Beta de las nuevas cosas en las que estamos trabajando activamente. Contiene realmente muchas
nuevas funciones, pero no es una versin tan pulida y estable.

Audacity est siendo desarrollado por un grupo de voluntarios bajo el modelo de cdigo fuente
abierto (open-source). Est escrito en C y C++, utilizando el kit de herramientas multi-plataforma
wxWindows. Todo el cdigo fuente del programa est disponible bajo la licencia GNU General Public
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 62/65
License, la cual esencialmente permite a cualquiera modificar el cdigo fuente mientras publique los
cambios



Goldwave

Goldwave es un editor profesional de audio digital. Permite realizar las siguientes operaciones:

Reproduccin, edicin, anlisis y mezcla de audio
Aplicacin de efectos especiales.
Remasterizacin digital y restauracin de viejas grabaciones con reduccin de ruido y uso de
filtros.
Grabacin audio a partir de casetes, vinilos, radio, etc a travs de la lnea de entrada, por dictado
usando un micrfono.
Copiar digitalmente pistas de audio CD y salvarlas en formato MP3, WMA o Vorbis.
Convertir ficheros a/desde diferentes formatos como wav, wma, mp3, ogg, aiff, au, vox.
Edicin de mltiples ficheros en una sesin.
Calidad de sonido: 24 bits, 192kHz
Edicin rpida no destructiva
Visualizacin en tiempo real: barra, onda, espectrograma, espectro, etc.

Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 63/65


3.11.2. Compresin/Conversin


RazorLame

RazorLame es una GUI para LAME, un codificador MP3 muy rpido que produce ficheros de alta calidad
y tiene caractersticas avanzadas como VBR y Joint Stereo, adems de ser de cdigo abierto. LAME es
una herramienta educativa usada para aprender a codificar en MP3. El objetivo del proyecto LAME es
usar el modelo de cdigo abierto para mejorar la acstica, reduccin de ruido y velocidad de MP3. Entre
las caractersticas de LAME podemos destacar:

Codificacin MPEG 1,2 y 2.5 layer III
CBR, VBR y ABR
El codificador puede ser compilado como una librera compartida (Linux/UNIX), DLL cdec
ACM (Windows).
Formato libre de codificacin y decodificacin.
GPSYCHO: Modelo GLP para la acstica y la reduccin de ruido.
Calidad comparable a los codificadores FhG.
Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 64/65




CDEx

Esta herramienta permite hacer diversas operaciones con audio, como convertir el contenido de un CD al
formato MP3; WAV u OGG. Entre las caractersticas de este programa GPL podemos destacar:

Reproduccin de audio
Creacin automtica de listas de reproduccin PLS y M3U
Correccin avanzada del jitter
Soporte para diversos formatos (WAV, MP3, OGG, VQF, APE, etc)
Soporte para tags ID3 V1 y V2.
Normalizacin de ficheros de audio
Soporte para CDDB, grabacin desde lnea de entrada analgica y transcoding de ficheros de
audio comprimidos


Tema 3.- Audio.
Tecnologas para los Sistemas Multimedia Curso 2004/05 - 65/65

3.11.3. Streaming

SHOUTcast

SHOUTcast es una solucin gratuita para la realizacin de streaming. Permite a cualquiera
transmitir audio desde su PC a travs de Internet. Se distribuye el audio en formato MP3. El sistema
SHOUTcast puede distribuir audio en directo o por demanda. Asimismo, haciendo uso de los plug-ins
correspondientes se puede transmitir tambin audio proveniente de un micrfono o la lnea de entrada.
El sistema est compuesto de tres componentes simples, que detallamos a continuacin.

OYENTE: Los oyentes sintonizan emisiones SHOUTcast usando un reproductor compatible con
streaming de audio MP3. Los reproductores recomendados son Winamp (Windows), Audion (Mac),
XMMS (Linux)

EMISOR: Los emisores necesitarn un servidor para realizar la transmisin. Dicho servidor puede ser
propio o no. Para emitir, se hace uso de Winamp y de un Plug-in llamado SHOUTcast Source for
Winamp para enviar el audio al servidor. Actualmente no se puede emitir desde Unix o Mac.

SERVIDOR: Se ejecuta en una mquina conectada a una red IP con gran ancho de banda, y es el
responsable de recibir el audio de un emisor actualizar el directorio SHOUTcast con el nuevo contenido y
enviar el audio a los oyentes. Est disponible para Windows 95/98/NT/2000, Linux glibc (intel) ,
FreeBSD 3.x (intel), FreeBSD 4.x (intel) , BSDi (intel) , Solaris 7 (SPARC).

Похожие интересы