Академический Документы
Профессиональный Документы
Культура Документы
Introduccin
En los captulos i y ii de este libro se han tratado los indicios (i.e., los rasgos
distintivos de la seal acstica) que utiliza el sistema auditivo para evaluar sus
caractersticas espaciales.
En este captulo se tratarn diferentes tcnicas para la simulacin de los
indicios de intensidad y tiempo en seales acsticas para ser reproducidas con
sistemas de mltiples altoparlantes. Las tcnicas que se tratarn no son todas
las existentes, pero se ha intentado cubrir los aspectos ms bsicos y corrien-
temente utilizados.1
Las aplicaciones y/o dispositivos tecnolgicos que trabajan sobre la cua-
lidad espacial del sonido intentan imitar lo mejor posible aquellos rasgos de
la realidad sonora que sirven mejor a sus propsitos. Pero dado que no nece-
sariamente la imitacin perfecta de la realidad conduce al resultado percep-
tivo ms plausible, y que deben tenerse en cuenta cuestiones de eficiencia y
recursos involucrados, parece no existir una solucin tecnolgica perfecta. Sin
embargo, se puede afirmar que los numerosos desarrollos e investigaciones en
el tema han producido un considerable progreso en la efectividad perceptiva
de las tecnologas que actualmente se usan.
Las tcnicas de dsp (Digital Signal Processing o procesamiento de seal
digital) que se emplean en la espacializacin de sonido han sido y son
extensamente investigadas desde hace tiempo. El trabajo de John Chowning
(1971), quien es el primero en desarrollar un programa de computacin para
espacializacin de sonido, constituye una referencia inicial en esta rea.
Afortunadamente existe una gran cantidad de investigacin y desarrollo tec-
99
nolgico muy bien documentados sobre el tema (vanse Moore, 1983, 1989
y 1990; Chowning, 1971; Dodge, y Jerse, 1985; Kendall et al., 1989; Moorer,
1979; Karpen, 1998 y Cetta, 2007, entre otros) a la que el lector puede recu-
rrir para ampliar lo que se expondr.
100
resolverse con una funcin simple. Algunas de las funciones ms utilizadas
para el panormico de intensidad son: la funcin lineal, la ley del seno y
la energa constante (tambin llamada ley de la tangente, o panormico de
coseno/seno).
g1 = 1 - / M E. 1
g2 = / M E. 2
g1 - g 2 sin( s )
=
g1 + g 2 sin( 0 ) E. 3
g1 sin( 0 ) + sin(s )
=
g 2 sin( 0 ) sin(s) E. 4
Los valores de ganancia para cada canal que surgen de la ecuacin anterior
deben ser normalizados para su uso prctico, ya que solo se establece la rela-
cin entre ellos. Para ese propsito se usa la siguiente frmula:
p p p
g 1 + g 2 =1 E. 5
cos () + sin () = 1 E. 6
En este caso es fcil ver que, dado que la energa acstica equivale al cuadrado
101
de la amplitud, la suma de las ganancias de ambos canales elevada al cuadrado
ser siempre igual a la unidad, conservando as la energa total entregada cons-
tante para cualquier ngulo. Es decir:
g1 () + g2 () = 1 E. 7
Finalmente Chowning (1971) postula otra ley para el clculo de las ganancias
de cada canal:
1 + tan( max /2)
g () =1 E. 10
1 2
g 2 () = 1 + tan( max /2) E. 11
102
1
g(ch1)
0
1
g(ch2)
0
g(ch1)2 1
+ g(ch2)2
0
g(ch1) 1
+ g(ch2)2 0
Lineal Ley del seno (con p=1) Energa constante Chowning, 1971
Figura 1
nadas por las impresiones subjetivas de cada oyente y de que permite la experi-
mentacin extensiva sin grandes costos e infraestructura (Pulkki, 1999); y 3) test
perceptivos realizados con oyentes (Guastavino et al., 2007; West, 1998).
Una de las debilidades de la tcnica de panormico de intensidad
mediante pares de altoparlantes es la falta de homogeneidad de la imagen
sonora que produce. En efecto, cuando la fuente virtual se ubica en el mismo
ngulo que un altoparlante, se obtiene una imagen sonora puntual y precisa,
dado que la energa sonora irradia solo de este altoparlante. Por otro lado,
cuando la fuente sonora virtual se ubica entre dos altoparlantes, la imagen
sonora es difusa, porque se produce por la suma de las seales que emiten. Las
tcnicas que usan siempre todos los altoparlantes de un sistema4 poseen una
mayor homogeneidad en este sentido. Desde ya, es obvio que este problema
disminuye en la medida en que se usan ms altoparlantes.
Otra de las debilidades del panormico de intensidad, que es comn a
todas las tcnicas, es la que se deriva del efecto de precedencia.5 A causa de este
efecto, en la medida en que el/los oyente/s estn alejados del punto ideal de
audicin tienden a atribuir la ubicacin de la fuente virtual al altoparlante
ms cercano. La decorrelacin de las seales de los diferentes altoparlantes
de un sistema mediante filtros todopaso (alpass) con distribucin aleatoria de
las fases en varias bandas de frecuencia ayuda a sobrellevar este incoveniente
(Kendall, 1995).
4 Por ejemplo, Ambisonics. Vase el captulo v de este libro dedicado a esta tcnica.
5 Vase el captulo i de este libro.
6 En efecto, son tcnicas de localizacin angular.
103
simular sencillamente escalando la amplitud de la seal de la fuente virtual de
manera proporcional a la distancia entre esta y el/los oyentes.7 Para tener en
cuenta la distancia, las ganancias de cada canal de audio en un sistema estreo
pueden calcularse de acuerdo con las siguientes ecuaciones:
7Por supuesto, existen otras tcnicas para simular la distancia entre fuente y oyente/s. Entre
ellas, la utilizacin de filtros para imitar la absorcin de la humedad y el efecto de proximi-
dad. Adems, en recintos cerrados, la proporcin entre reverberacin densa y seal directa
es un indicio muy robusto para la estimacin de distancia. Tales recursos no sern tratados,
dado que exceden los objetivos de este captulo. Vase al respecto: Cetta (2007), Di Liscia
(2004, cap. 9), Moore (1990, cap. 4) y Moorer (1979).
104
Dist = x*x + y*y
amp=
amp= sin( -45) / Dist
cos( -45) / Dist
(amp= 0)
Figura 2
105
de la seal para los altoparlantes i y ii se calcula de acuerdo con el ngulo entre
la fuente y el oyente (), y la distancia entre la fuente y el oyente (D).8 Por otro
lado, los altoparlantes iii y iv tienen ganancia cero para el directo en este caso.
8 Para simplificar, los ngulos se indican en grados. Dada la ubicacin de los altoparlantes,
es necesario restarle al ngulo de ubicacin de la fuente 45 para que est en el rango de 0
a 90(0 a /2 radianes).
9 Del ingls Vector Based Amplitude Panning.
106
Altoparlante k
Fuente
virtual
Altoparlante n
Altoparlante m
Oyente
Figura 3
pT = g Lnmk. E. 18
en donde gn, gm y gk son los factores de ganancia para cada altoparlante, g = [gn
gm gk] y Lnmk = [ln lm lk] T.
g = pT L-1nmk
1
l nx l ny l nz
g = [ pn pm pk ] l mx l my l mz
l kx l ky l kz
E. 19
107
Los valores del vector g deben normalizarse antes poder ser usados, esto se
realiza multiplicando cada uno de ellos por un escalar e, tal que:
1
e
g + g k2 + g m2
n
2
E. 20
Altoparlantes
ngulo horizontal ngulo de elevacin
y fuente virtual
ln 45 0
lk 90 45
lm 135 0
p (fuente virtual) 90 20
ln 0,707107 0,707107 0
lk 0 0,707107 0,707107
lm -0,707107 0,707107 0
pT 0 0,939693 0,34202
108
0,707107 0 -0,707107
0,707107 0 0,707107
gn gk gm
109
Figura 4
13 Para mayores detalles sobre la percepcin de la directividad de las fuentes acsticas, vase
el captulo i de este libro.
110
en donde r(,) es la magnitud de un vector de radiacin en la direccin de
una fuente acstica con orientacin .
A pesar de que la emisin de energa acstica de las fuentes acsticas
reales posee patrones muy complicados, puede aproximarse a travs de diseos
esquemticos expresados mediante ecuaciones. Por ejemplo, un patrn muy
conocido y usado, tanto en audio como en acstica, es el denominado cardioi-
de, junto con sus derivaciones en hipercardioide. F. R. Moore, en su programa
Space (Moore, 1983, 1989), propone modelar en dos dimensiones la radiacin
hipercardioide de una fuente acstica a partir de la siguiente ecuacin:
2
(back 1)| |
r (,) = 1+
E. 23
Figura 5
111
= 0, = 90 = 90, = 90 = 270, = 90
Figura 6
112
Para calcular la radiacin en tres dimensiones es necesario tener en cuenta
tanto el ngulo horizontal (azimut) como el ngulo de elevacin de la direc-
cin de la radiacin. En algunos casos, resulta til representar la direccio-
nalidad de las fuentes acsticas con el modelo de cuerpos rgidos, a travs de
ecuaciones que expresen las coordenadas cartesianas de los puntos que cons-
tituyen su superficie. Por ejemplo, si se construye una variante arbitraria en
tres dimensiones15 de un patrn cardioide, sus coordenadas cartesianas surgen
de las siguientes ecuaciones:
x = cos()cos() E. 24
y = sin()cos() /2 /2 E. 25
z = sin( c) c 0,5 E. 26
Figura 7
113
Para calcular la amplitud de la radiacin de una fuente acstica imaginaria con
las propiedades de directividad que surgen de esas ecuaciones, simplemente
basta con calcular la magnitud del vector que surge desde su centro (en este
caso, el origen) hasta un punto de su superficie indicado por los dos ngulos del
vector (azimut y elevacin). Esto se hace muy sencillamente, ya que:
r(,) = x 2 + y2 + z 2 E. 27
16 DirectX es una api (Advanced Programming Interface) para multimedia del sistema ope-
rativo MS Windows.
17 Por ejemplo, los archivos obj de Alias Wavefront que, en su forma ms simple, definen
114
una esfera (radiacin omnidireccional). Valores cambiantes de acuerdo con
los ngulos podran representar muy diversos patrones de directividad; este es
el enfoque que usa el entorno SoundScape (Wozniewski et al., 2007).
Finalmente se mencionar la posibilidad del cambio gradual de las carac-
tersticas de directividad de una fuente acstica. Si se cambia gradualmente el
parmetro back en la ecuacin 23, por ejemplo, se puede lograr el paso gradual
de una fuente omnidireccional a una fuente hipercardiode.18
t=d/c E. 28
D (x a , y a , z a , x b , y b , z b ) = (x a - x b )2 + (y a - y b )2 + (z a - z b )2 E. 29
Se suelen usar los datos que surgen de las dos ecuaciones anteriores (28 y 29)
para simular: 1) el tiempo de arribo del frente de onda a un solo punto global
18El efecto en el oyente, sin embargo, ser el de un cambio de intensidad, a menos que se
simulen los ecos de un recinto teniendo en cuenta la directividad de la fuente acstica y/o se
usen otros indicios espectrales. Vase la seccin Simulacin de las caractersticas de recintos
mediante indicios de intensidad y tiempo (p. 117 de este captulo).
115
en el que se asume que est el/los oyente/s (Chowning, 1971); 2) el tiempo
de arribo del frente de onda a cada uno de los odos de un oyente, denomina-
do tambin simulacin de itd; y 3) el tiempo de arribo del frente de onda a
cada uno de los altoparlantes que se ubicarn en puntos determinados de un
recinto para simular una determinada situacin de audicin. Este ltimo caso
se corresponde con el modelo realizado por F. R. Moore (1989 y 1983) en su
unidad de espacializacin Space.
La ecuacin 29 puede ser usada para calcular la distancia entre la fuente
virtual y el oyente, y la ecuacin 28 para calcular el retardo que debe efec-
tuarse en la seal a los efectos de simular el indicio temporal de distancia. En
general, muchas implementaciones asumen que el oyente est situado en el
origen (x = y = z = 0), por lo que la distancia entre este y la fuente de sonido
se calcula de forma mucho ms sencilla:
D = x 2 + y2 + z 2 E. 30
116
el mismo buffer para leer la seal almacenada en l con diferentes retardos,
provistos del hecho ya mencionado de que estos no superen su longitud (vase
Moore, 1990, cap. iv).
La itd (diferencia interaural de tiempo) es un indicio que se produce por
el diferente tiempo de arribo de la seal acstica a los odos del oyente cuando
la fuente de sonido se encuentra en una ubicacin diferente del plano medio
(vase el captulo i de este libro).
Tomando como base la medida de la distancia de un odo a otro en una
cabeza promedio (aproximadamente 20 cm) es muy sencillo calcular el
tiempo de arribo a cada odo de la seal acstica de acuerdo con su ngulo de
posicin. Se trata solo de aplicar la ecuacin 29 a dos puntos situados respec-
tivamente a -0,1 m y 0,1 m de la posicin del oyente.
A pesar de ser un indicio muy contundente de ubicacin espacial de soni-
do, la itd no es apta para su utilizacin en sistemas de altoparlantes porque la
posicin de los oyentes y su propensin a mover la cabeza reducen completa-
mente su efectividad.20
Sin embargo, hay dos casos en los que la simulacin de retardos no solo es
necesaria, sino inevitable. Uno es la simulacin del efecto Doppler y el otro es
la simulacin de los ecos tempranos,21 o primeras reflexiones de un recinto.
El efecto Doppler surge, como ya se mencion (vase captulo ii de este
libro), de la modificacin dinmica de velocidad radial relativa a fuente acs-
tica y oyente. Para implementarlo se usa la misma tcnica de buffer circular
ya explicada, pero respecto de un solo punto espacial en donde se supone
que est el oyente. Debe ser mencionado, por supuesto, que tal simulacin es
rigurosa solo para el punto en donde se calcula.
Introduccin
117
Los primeros ecos son una coleccin de reflexiones que ocurre aproximada-
mente en los primeros 80 milisegundos a partir del momento en que comienza
la seal directa. Proveen informacin sobre el recinto y, parcialmente, sobre
la localizacin relativa de fuente y oyente, siendo especialmente significativo
el lapso entre el comienzo de la seal directa y el primer eco. Pasados los 80
milisegundos, aproximadamente, la coleccin de ecos es cada vez ms densa,
y se percibe de manera estadstica. A este otro fenmeno se lo denomina
habitualmente reverberacin densa.22
En este captulo se tratar nicamente la simulacin de ecos tempra-
nos, dado que las tcnicas que involucra tienen estrecha relacin con las ya
explicadas.
captulo.
118
Para efectos musicales ms prcticos25 y considerando una geometra
simple del recinto, la mayora de las aplicaciones de audio para simulacin
de localizacin y movimiento de una o varias fuentes acsticas en un recinto
implementan el llamado mtodo de la imagen.26 Este mtodo consiste en el cl-
culo de las primeras reflexiones que llegan al oyente clasificadas por orden (es
decir, las de primer orden son las que rebotaron una sola vez, las de segundo
orden dos veces, y as sucesivamente). A pesar de que se sabe que este mtodo
no es completamente apto para la simulacin precisa de la respuesta a impulso
de una sala, la aproximacin que realiza es suficiente para obtener los ecos
que los oyentes utilizan para conjeturar la localizacin de la fuente acstica.
La figura 8 muestra las reflexiones de primer orden que surgen de una fuente
omnidireccional de acuerdo con el mtodo de la imagen, con respecto a un
oyente situado en el origen de un plano en dos dimensiones. En este caso, se
obtiene un rayo por cada una de las paredes del recinto.
20
20
(8,12)
(8,8)
(12,8)
(-28,8)
(0,0)
(8,-28)
Figura 8
25 A diferencia del propsito de diseo acstico de salas, que requiere de una mayor preci-
sin en la imitacin de fenmeno fsico. Vase el captulo ii de este libro.
26 Image method, en ingls. Vase Allen y Berkeley (1979).
119
El mtodo de la imagen tiene tambin la ventaja de ser simple y, por consi-
guiente, ms fcil de implementar. Consiste en rebatir la imagen de la sala
hacia la izquierda, la derecha, el frente, atrs, arriba y abajo (si se calcula en
tres dimensiones). La nueva posicin de la fuente en tales imgenes tiene
una distancia y un ngulo en relacin con el oyente que son equivalentes a
la reflexin del orden que corresponda. Si se desea calcular las reflexiones
de segundo orden, estas surgen de un nuevo rebatimiento de las imgenes de
las reflexiones de primer orden obtenidas, y as sucesivamente. En la figura
9 se muestran esquemticamente en dos dimensiones las fuentes fantasmas
que se calculan para las reflexiones de primer y segundo orden del recinto,
oyente y fuente que se encuentran en el rectngulo central. El orden de las
reflexiones se marca con la intensidad del sombreado.
Las ecuaciones que permiten calcular la posicin de las coordenadas
cartesianas de la nsima fuente virtual en tres dimensiones con el mtodo de la
imagen (McGovern, 2004) son:
1(1)i
x i = (1)i x s +[i + ]x r E. 31
2
1(1) j
y j = (1) j y s +[ j + ]y r E. 32
2
1(1)k
zk = (1)k zs +[k + ]zr E. 33
2
donde i , j y k son enteros que indican el nmero de fuente fantasma. Si algu-
no de ellos es 0, entonces las ecuaciones 31, 32 y 33 retornan la coordenada
cartesiana correspondiente de la fuente, mientras que si son negativos las
ecuaciones retornarn la coordenada cartesiana correspondiente a la fuente
fantasma en la pared opuesta. En estas ecuaciones, xs, ys, zs son las coordena-
das cartesianas de la fuente en el recinto, xr es la dimensin del recinto en la
dimensin x (ancho), yr es la dimensin del recinto en la dimensin y (largo)
y zr es la dimensin del recinto en la dimensin z (alto).
La distancia de dichas fuentes fantasmas (equivalentes a las reflexiones)
al oyente se puede calcular con la ecuacin 28 o, si se asume que el oyente
est en el centro, con la ecuacin 29.
Por supuesto, a medida que el orden de las reflexiones se incrementa, la canti-
dad de fuentes virtuales a simular crece de manera geomtrica. La cantidad k
de reflexiones a calcular en tres dimensiones con el mtodo de la imagen, en
funcin del orden n de estas surge de acuerdo a la siguiente ecuacin (Varga,
2000):
120
((4n + 6)n + 8)n
k= E. 34
3
En la tabla siguiente se muestra una lista de la cantidad de reflexiones a
calcular desde n = 1 hasta n = 10 de acuerdo a la ecuacin anterior. Puede
apreciarse claramente con el aumento de reflexiones el proceso de pasaje
progresivo desde ecos tempranos a reverberacin densa por la progresiva
acumulacin de estos. Es evidente tambin que el incremento geomtrico de
la cantidad de reflexiones en funcin del orden torna casi imposible su simu-
lacin en tiempo real ms all de un orden determinado. Por lo antedicho, la
mayora de las aplicaciones suele dar al usuario la posibilidad de establecer el
valor mximo de n (orden de los ecos a calcular), o bien un valor de amplitud
que el programa puede usar como umbral mnimo para determinar cuntas
reflexiones debe calcular y simular.27
Figura 9
121
Orden (n) Reflexiones (k)
1 6
2 24
3 62
4 128
5 230
6 376
7 574
8 832
9 1.158
10 1.560
28 Nuevamente debe advertirse que un clculo y una simulacin precisos de tal efecto debe-
ran incluir los cambios en el espectro de la seal en relacin a la respuesta en frecuencia
y fase del material que recubre las superficies reflejantes y el ngulo de incidencia de la
122
Fuente
Reflexin
Oyente
Figura 10
cada muestra de audio, o bien a frecuencias menores y utilizar algn tipo de interpolacin
entre los valores obtenidos.
31 Si bien, rigurosamente hablando, no se trata de efecto Doppler, la manera de concebirlo
e imitarlo es exactamente igual a la que se usa para la emulacin del efecto Doppler en la
seal directa.
123
Conclusiones
Bibliografa
124
Dodge, Ch. y T. Jerse (1985), Computer Music Synthesis, composition and per-
formance, Nueva York, Schirmer Books.
Guastavino, C. et al. (2007), Spatial audio quality evaluation: comparing
transaural, Ambisonics and stereo, Proceedings of the 13th International
Conference on Auditory Display, Montreal.
Karpen, R. (1998), Space and Locsig Ugs, en The Csound Manual (<http://
www.csounds.com/manual/html/locsig.html>, <http://www.csounds.
com/manual/html/space.html>).
Kendall, G. et al. (1989), Spatial reverberation, discussion and demonstra-
tion, en Mattews, M. y J. Pierce, Current Directions in Computer Music
Research, Cambridge, mit Press.
Kendall, G. (1995), The decorrelation of Audio Signals and its impact on
Spatial Imaginery, Computer Music Journal, vol. 19, Cambridge, mit
Press.
McGovern, S. (2004), A model for room acoustics (<http://www.2pi.us/rir.
html>, consultado el 20 de febrero de 2008).
Moore, F. R. (1990), Elements of Computer Music, Nueva Jersey, Prentice
Hall.
(1989), Spatialisation of sounds over loudspeakers, en Mattews, M. y
J. Pierce, Current Directions in Computer Music Research, Cambridge, mit
Press.
(1983), A General Model for Spatial Processing of Sounds, Computer
Music Journal, vol. 7, N 3.
Moorer, A. (1979), About this reverberation business, Computer Music
Journal, vol. 3, N 2.
Pulkki, V. (2001), Spatial sound generation and perception by amplitude panning
techniques, Reporte N 62, Universidad Tecnolgica de Helsinki.
et al. (1999), Analyzing virtual sound source attributes using a binaural
auditory model, Journal of the Audio Engineering Society, 47 (4), pp.203-
217.
Savioja, L. (1999), Modeling Techniques for Virtual Acoustics, tesis doctoral,
Helsinki University of Technology, Finlandia (<http://www.tml.tkk.
fi/~las/publications/thesis/>, consultado el 20 de febrero de 2008).
Stevens, S. S. (1970), Neural events and Phychophisical Law, Science, 170.
Varga, I. (2000). Spat3d Unit Generator, The Csound Manual (<http://
www.csounds.com/manual/html/spat3d.html>).
West, J. (1998), Five-channel panning laws: an analytical and experimental com-
parison, tesis de maestra, Universidad de Miami.
Wozniewski, M. et al. (2007), AudioScape: A Pure Data library for manage-
ment of virtual environment and spatial audio, Pure Data Convention,
125
Montreal (<http://www.audioscape.org/twiki/pub/Audioscape/Audioscape
Publications/audioscape_pdconv07_final.pdf>).
126