If Castro Vidal Fiee

UNIVERSIDAD NACIONAL DEL CALLAO
Facultad de Ingeniería Eléctrica y Electrónica
Informe Final del Proyecto de Investigación
“TRANSFORMADA DE FOURIER Y LOS MP3”
Docente: Lic. RAÚL PEDRO CASTRO VIDAL
(Resolución Rectoral Nº 1109-05-R)

Cronograma de ejecución: 01 de octubre del 2005 al 30 de setiembre del 2006.
Bellavista Agosto del 2012

Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal 2012
Págs.
I ÍNDICE 2
II RESUMEN 5
III INTRODUCCIÓN 6
IV PARTE TEÓRICA O MARCO TEÓRICO 11
4.1 CONCEPTOS PREVIOS

4.1.1 SONIDO
4.1.2 SONIDO DIGITAL 13

4.1.3 DIGITALIZACIÓN DE LA SEÑAL DE AUDIO 15
4.1.4 TASA DE MUESTREO DE NYSQUIST
4.2 EVOLUCIÓN DE LOS FORMATOS DE MÚSICA 17

4.3 HISTORIA DEL FORMATO MP3 22
4.3.1 UTILIDAD DEL FORMATO PM3 24

4.3.2 ESTRUCTURA DE UN FICHERO MP3
4.3.3 TRANSFORMADA DE FOURIER EN MP3 25

4.4 SERIES DE FOURIER Y LA TRANSFORMADA DE FOURIER
PARA SEÑALES CONTINUAS
4.4.1 DEFINICIÓN FORMAL
4.4.2TEOREMA DE EXISTENCIA DE LA TRANSFORMADA DE FOURIER
Y PROPIEDADES 26
4.4.3 TRANSFORMADA DE COSENO 32
4.4.4 TRANSFORMADA DE SENO 33
4.4.5 INTERPRETACIÓN DE LA TRANSFORMADA DE FOURIER 34

4.4.6 PROPIEDADES DE LA TRANSFORMADA DE FOURIER 36
4.4.7 CONVOLUCIÓN 39
4.4.8 INTERPRETACIÓN DE LA CONVOLUCIÓN
4.4.9 TEOREMA DE LA CONVOLUCIÓN DE DOS FUNCIONES 42
4.4.10 PROPIEDADES DE LA CONVOLUCIÓN 44

4.4.11 TEOREMA DE LA CONVOLUCIÓN EN EL TIEMPO 45
4.4.12 TEOREMA DE LA CONVOLUCIÓN EN LA FRECUENCIA
4.4.13 PROPIEDADES DE LA CONVOLACIÓN Y MODULACIÓN 48
2
Págs.
4.4.14 CONVOLUCIÓN NO PERIÓDICA 49
4.4.15 MODULACIÓN 50
V MATERIALES Y MÉTODOS 52
VI RESULTADOS 53
6.1. TRANSFORMADA DE SEÑALES DISCRETAS Y ALGORITMO
FFT
6.1.1 ALGORITMO FFT PARA MP3 54
6.1.2 DIFERENCIAS CON OTROS FORMATOS 55
6.1.3 CONVERSIÓN ANALÓGICO DIGITAL 56
6.1.4 MUESTREO DE LA SEÑAL ANALÓGICA
6.1.5 CONDICIÓN DE NYSQUIST 58
6.1.6 MULTIRESOLUCIÓN Y FIRTROS
6.1.7 PROPIEDAD DE LA FUNCIÓN SCALING 60
6.1.8 CUANTIFICACIÓN DE LA SEÑAL ANALÓGICA
6.1.9 CODIFICACIÓN DE LA SEÑAL EN CÓDIGO BINARIO 61
6.1.10 COMPRESIÓN DE VOZ 63
6.1.11 COMPRESIÓN DE AUDIO GENÉRICO
6.1.12 DETALLES TÉCNICOS 64
6.1.13 BANCO DE FILTROS 65
6.2 EL MODELO PSICOACÚSTICO 66
6.2.1 CODIFICACIÓN Y CUANTIFICACIÓN 67
6.2.2 CICLO INTERNO
6.2.3 CICLO EXTERNO
6.2.4 EMPAQUETADO FORMATEADOR DE BITSTREAM 68
6.2.5 ESTRUCTURA DE FICHERO MP3
6.2.6 TRANSFORMADA DE FOURIER DISCRETA Y FICHERO 69
MP3
6.2.7 CODEC DE AUDIO Y TIPO DE CODEC
6.2.8 CODEC DE AUDIO CON PÉRDIDAS
6.2.9 CODEC DE AUDIO SIN PÉRDIDAS 70
3
Págs.
71
6.3 ESPECTROS SONOROS
6.3.1 TRANSFORMADA RAPIDA DE FOURIER Y COMPRESIÓN DE AUDIO 74
6.3.2 EJEMPLO DE COMPRESIÓN DE VOZ POR MEDIO TRANSFORMADA
DE FOURIER EN MATLAB 76
VII. DISCUSIÓN
7.1. CONCLUSIONES
7.2. RECOMENDACIONES
77
VIII REFERENCIAS
APÉNDICE 79
ANEXO 88
4
II RESUMEN
El presente trabajo de investigación consiste en plasmar la utilidad de la
Transformada de Fourier en la compresión de audio y los MP3, para lo cual es
fundamental la teoría de señales y las herramientas matemáticas que se disponen a
fin de comprimir una señal de audio usando la Transformada de Fourier, la señal
sonora no necesariamente es periódica, por lo que es necesario presentar un
enfoque teórico de la Transformada de Fourier para señales analógicas y
digitales , se hace un enfoque intuitivo e histórico de la compre sión de audio,se
plasma la Transformada de Fourier Discreta en la compresión de audio mediante
algoritmos de la Transformada Rápida de Fourier, para la cual se muestra un
ejemplo de comprensión de voz mediante la Transformada de Fourier y se utiliza
un software elaborado en MATLAB.
5
III INTRODUCCIÓN
El principio de la transformada de Fourier, desarrollada por primera vez en el

siglo XIX, es que cualquier señal, como por ejemplo una grabación de sonido, se
puede representar como la suma de una serie de sinusoides o cosinusoides con
distintas frecuencias y amplitudes. Así, esta serie de ondas se puede manipular
con relativa facilidad. Esto permite, por ejemplo, que una grabación de audio se
comprima o se pueda eliminar el ‘ruido’. A mediados de la década de 1960 se
creó un algoritmo para la computación d enominado ‘Transformada Rápida de
Fourier’ (FFT: Fast Fourier Transform). Cualquiera que se haya quedado
maravillado ante el diminuto tamaño de un archivo MP3 en comparación con la
misma grabación en su estado sin comprimir conoce la potencia de la FFT en
acción. 14
Gracias al nuevo algoritmo, denominado ¨Transformada Dispersa de Fourier

(SFT: Sparse Fourier Transform), los flujos de datos se pueden procesar de 10 a
100 veces más rápido que lo que permitía la FFT. Esta velocidad es posible
porque la información que más nos importa es muy estructurada: la música no es
un ruido aleatorio. Las señales con sentido suelen tener solo una fracción de los
posibles valores que podría tener una señal. El término técnico para esto es que la
información es “dispersa”. Puesto que el algoritmo SFT no está diseñado para
funcionar con cualquier flujo de datos, puede tomar determinados atajos que de
otra forma no estarían disponibles. En teoría, un algoritmo capaz de manejar solo
señales dispersas es mucho más limitado que la FFT. Pero “la dispersión está en
todas partes”, señala el coinventorKatabi, profesor de ingeniería eléctrica e
6
informática. “Está en la naturaleza, en las señales de vídeo, en las señales de

audio”, afirma Katabi.5
Una transformada más rápida implica que se necesita menos potencia

computacional para procesar una cantidad dada de información, una bendición
para los aparatos multimedia que miden el gasto energético al milímetro, como los
teléfonos inteligentes. O, con la misma potencia computacional, los ingenieros
pueden contemplar la posibilidad de hacer cosas que debido a las necesidades
computacionales de la FFT no eran prácticas. Por ejemplo, las conexiones
troncales de Internet y los routers actuales solo son capaces de leer o procesar una
ínfima parte del río de datos que se pasan entre ellos. La SFTpodría permitir a los
investigadores estudiar el flujo de este tráfico con mucho más detalle mientras los
bits pasan a una velocidad de miles de millones por segundo [4].
Desde que Batis Joseph Fourier en el año 1 807 introdujo que una señal periódica
se podía representar como una serie de senos y cosenos, a partir de Fourier
realmente muchos investigadores han formalizado y desarrollado la teoría de las
Series de Fourier y la Transformada de Fourier. Las señales que provienen del
mundo físico son continuas o analógicas por lo que los grandes investigadores
encontraron que la herramienta perfecta para el tratamiento de señales continuas y
discretas eran las series de Fourier y la Transformada de Fourier.3
Las señales de audio, producto de trasduccionesacustoeléc tricas son en la gran

mayoría de los casos de tipo analógicas. Es decir, una señal eléctrica de magnitud
finita y continua en el tiempo, con niveles variables de acuerdo a los valores de la
información ori ginal, acotados entre dos límites. Esta simple representación ha
permitido la transmisión, a través de métodos de modulación adecuados, y el
almacenamiento de la información. Sin embargo, la eficiencia y efi cacia de estos
procedimientos no son perfectas. La aparición de rui dos, de origen natural o
7
creados por el hombre, y de distorsiones lineales y alinéales propias del canal de

transmisión deterioran la se ñal analógica en forma más o menos severa, según los
casos. El desarrollo de la tecnología digital ha posibilitado la incorporación de
nuevas formas de tratamiento de la información, que permiten disminuir los
efectos de tales disturbios e imperfecciones. Pero la digitalización trae como
consecuencias un aumento sustancial del ancho de banda necesario para la
transmisión y un aumento de la capacidad necesaria para el almacenamiento. En
consecuencia, uno de los desarrollos más recientes y prometedores es la
compresión de datos que intenta disminuir algunos de los efectos no deseados de
la digitalización [7] y [11].
La reducción de la velocidad de tran smisión o tasa de bits (directamente
relacionada con el ancho de banda de transmisión) es necesaria porque los costos
de transmisión aumentan con dicha velocidad. Por lo tanto es imperativo el uso de
técnicas de compresión para conseguir la más baja veloc idad posible que
proporcione una aceptable calidad de audio en una determinada aplicación.
La digitalización de las redes de telecomunicaciones ha traído también un cambio
en las características y calidad de las señales transportadas, y puede afirmarse que
las señales digitales son transportadas con una facilidad cada vez mayor. En
especial, las señales de televisión, tanto normales como de alta calidad, si bien
eran aptas para su transporte digital, debían enfrentarse a la necesidad de un
transporte de información en cantidades cada vez mayores.
La compresión digital de audio es un campo cada vez más importante y activo. El
progreso en los algoritmos de compresión, la tecnología VLSI (VLSI:
VeryLargeScaleIntegration), y las normas de codificación han hech o del audio
digital una tecnología practicable para muchas aplicaciones. Ante todo, se han
desarrollado muchos nuevos algoritmos de compresión, que permiten la
8
transmisión o el almacenamiento de audio digital con excelente calidad a tasa de

datos razonables. Además, el avance en la tecnología VLSI hace posible
implementar algoritmos sofisticados de compresión para aplicaciones en tiempo
real de una manera eficaz en función de los costos. Finalmente, surgieron
rápidamente las normas para la compresión de aud io que facilitan las plataformas
comunes de comunicación. Como resultado de todo esto, se están formando
nuevas alianzas, comercializándose nuevos productos, efectuándose nuevos
ensayos, y se están suministrando nuevos servicios, con lo cual la compresión
digital de audio está adquiriendo cada vez una importancia mayor [11].
A fin de normalizar todo lo referente al tema compresión, la Organización
Internacional de Normas (ISO: International StandardsOrganization) creó un
subcomité en conjunto con la Comisió n Internacional Electrotecnia (IEC:
International ElectrotechnicalCommission) denominado “Grupo de Expertos en
Imágenes en Movimiento” MPEG (MovingPicturesExpertsGroup). Este grupo de
trabajo ha desarrollado dos normas, una para el vídeo y audio digital de
computadoras identificada por la sigla MPEG-1 (publicada en noviembre de
1992) y otra para el vídeo y audio digitales empleados en la radiodifusión y en la
distribución filoguiada de tales señales, bautizada con la denominación MPEG -2.
En marzo de 1993 el MPEG publicó una propuesta de la norma MPEG -2, en la
que se definió que el objetivo de calidad buscado era el nivel establecido en la
Recomendación 601 de la UIT -R (ex CCIR: Comité Consultivo Internacional de
Radiocomunicaciones). En julio de 1993 se publicaron los requisitos establecidos
por la Norma MPEG-2. La ISO está trabajando en una nueva iniciativa para
lacodificación a tasa muy baja de bits de información de audio y de vídeo
(MPEG-4) que se presentó en 1999 [11].
9
El desarrollo de MPEG-1 (en lo que a audio se refiere) se orientó hacia las

técnicas para reducir la tasa de bits a 1.5 Mbps como límite superior.
El MPEG no especifica una técnica única de compresión, sino un conjunto de las
herramientas de compresión que pueden usarse en con formidad con reglas
exactas de una sintaxis de compresión. Estas re glas exactas facilitan el
intercambio de flujo de bits entre aplicaciones diferentes [7].
Desde la reproducción de la música en los formatos en disco vinílico desde la
vitrolas, tocadiscos con sus agujas de diamante, siempre dispuestos a captar
cualquier frecuencia deseada o no que pudieran salir del surco del vinílico, los
formatos compresión de música y reproducción ha evolucionado de forma
exponencial, sobre todo el almacenamiento de archivos de música han mejorado
haciendo posible portar música en unidades de almacenamiento masivo, esto
gracias al proceso de digitalización del sonido. El estándar digital para CD donde
se podía guardar 80 minutos de música fue un paso decisivo aprovechando la
incapacidad en la audición de algunas frecuencias. El MP3 es formato de
compresión de audio que ha revolucionado el mundo de la música y su vigencia
muestra lo potencia de este formato de compresión de audio [7].
10
IV PARTE TEÓ RICA O MARCO TEÓ RICO
4.1 CONCEPTOS PREVIOS

4.1.1 SONIDO
Agente físico que se manifiesta en forma de energía vibratoria y que es causa de la
sensación auditiva siempre que las vibraciones se mantengan dentro de ciertos
límites. Las ondas acústicas son vibraciones mecánicas de puntos materiales, que,
por propagación en un medio elástico, llegan al oído y perturban su equilibrio. En
general, se acostumbra a distinguir entre sonido y ruido, calificando al primero
como una perturbación periódica, de carácter musical. El sonido se propaga en el
aire, a 0°C y a la presión de 1 atm, a la velocidad de 331,4 m/s. Para que las
vibraciones emitidas por la fuente acústica sean apreciadas por el oído humano es
necesario que pasen de los 16 períodos por segundo (16 Hz) y que sean inferiores
a los 20.000 Hz.[7].
Los caracteres distintivos de un sonido son: la intensidad, que depende de la
amplitud de las vibraciones; la altura, que está relacionada con la frecuencia de
las vibraciones de la onda sonora, y el timbre, que depende del número e
intensidad de los armónicos. El sonido está formado por una serie de ondas de
compresión y enrarecimiento que transmiten energía cinética por el interior de
medios materiales.
En el vacío el sonido no se puede propagar, ya que necesita de un medio que le
haga de soporte. Los sonidos se generan todos en elementos que se encuentran en
vibración, vibración que se transmite al medio y que a través de él llegan hasta el
tímpano. En el oído son transformados en impulsos eléctricos que se transmiten
11
hasta el cerebro donde son interpretados. Las ondas sonoras son de tipo
longitudinal y consisten en una serie de compresiones y enrarecimientos
sucesivos. Para poner esto de manifiesto podemos considerar el caso de un
diapasón que vibra. Cada uno de los golpes de sus varillas produce al golpear
hacia afuera una compresión, para acto seguido dar lugar a un enrarecimiento al
batir hacia dentro, seguido de nuevo por una compresión, etc. De este modo se
dice que un ciclo está compuesto en esta oscilación por una compresión y un
enrarecimiento y la longitud de onda de dicha perturbación es la distancia que
separa dos compresiones, o dos enrarecimientos sucesivos [7].
Para caracterizar el sonido se emplean dos nociones que, si bien no son
propiamente científicas, permiten describirlo con una cierta aproximación. Dichas
nociones son las de altura, relacionada con la frecuencia y la de volumen que está
vinculada con la intensidad. Sin embargo, una descripción precisa de las ondas
sonoras debe basarse en los conceptos de frecuencia e intensidad de la
perturbación. La frecuencia de las ondas sonoras se define como el número de
oscilaciones que se producen en un segundo y se mide mediante la unidad llamada
que equivale a un ciclo por segundo. La intensidad, por su parte, es la potencia
que atraviesa en un segundo una superficie unidad perpendicular a la dirección de
propagación de la perturbación sonora. La unidad en la que se expresa es el
decibelio (dB), si bien no existe una escala absoluta de medida, ya que la escala
existente toma como nivel o la intensidad mínima audible, que es un concepto
relativo. Existe asimismo una relación entre la intensidad del sonido, la amplitud
y la frecuencia de la perturbación y el medio que le sirve de soporte, siendo así
que cuanto mayor es la densidad del medio tanto menor es la intensidad sonora y
cuanto mayor es la amplitud menor es la frecuencia[7].
12
La pérdida de la audición varia conforme al sexo y a la edad, tal como se puede

apreciar en la Fig. Nº 1, donde se muestra la pérdida de la audición según sexo y
edad.
FIG. N° 1 Pérdida de audición humana.

4.1.2 SONIDO DIGITAL
Registro sonoro digitalizado para poder ser procesado por un ordenador. El
sonido, al ser una sensación producida en el órgano del oído por una señal
analógica que representa los cambios de densidad y presión en los medios
materiales, debe digitalizarse para poder ser tratado en un ordenador. Según el
método que se emplee para hacer esta digitalización , se obtendrán diversos
formatos de sonido digital. Los formatos de sonido sirven para almacenar música
y pueden ser de muy diferentes tipos: MOD(Es un formato de archivo de
computadora usado para música, es el primer formato de música en
13
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vida l 2012
computadora)MID (MID: Musical Instrument Digital), WAV (W AV: Waveform

Audio File Format), y CM F (CMF: CreativeMusic File), que corrresponden a las
extensiones de los fichero s almacenados en el ordenador. Dentro de este grupo se
puede realizar cualquier conversión de formato, con mayor o menor calidad,
según cuál sea el origen y destino.
La mayor calidad (los sonidos creados por el ordenador par ecen totalmente
auténticos) se obtiene con ficheros VOC o WAV, aunque tienen el inconveniente
de la cantidad de espacio en disco que ocupan y el alto tiemp o de la unidad
central de proceso (CPU), que requiere su posterior reproducción. Los ficheros de
tipo MOD ocupan menos espacio, pero consumen más tiempo d e unidad central
de proceso (CPU) dando una calidad ligeramente inferior.En todos estos formatos
se requiere digitalizar el sonido.En la Fig. Nº2 se muestra el proceso de
digitalización de una señal continua [14].
FIG. N° 2 Procesado Digital
14
4.1.3 DIGITALIZACIÓN DE LA SEÑAL DE AUDIO

Al tener una señal analógi ca, en este caso el sonido, y le aplica mos un tren de
pulso, se obtiene una señal digital, el cual se le conoce como señ al mu estreada o
simplemente muestreo, tal como se muestra en la Fig.Nº3.
F IG. N°3 Proceso de muestreo.

4.1.4 TASA DE MUEST REO DE NYQUIST
La señal muestreada es un a repetición infinita del espectro de la señal digital.
La señal original se recupera si la frecuencia de los pulsos de mue streo es el
doble de la frecuencia máxima de la señal original. Esta se designa com o
Frecuencia de Nyquist, como se muestra en la Fig. Nº 4.
FI G. N° 4 Frecuencia de Nyquist.
15
A una frecuencia de muestreo diferente que la de Nyquist (Fig . 5 y Fig.6), el

espectro resultante es una sucesión de espectros solapados y la señal original no
puede recuperarse.
FIG. N°5 Frecuencia de muestreo espectros solapados
FIG. N°6 Frec uencia de muestreo de espectros solap ados
16
En la tabla Nº 1 se aprecia las frecuencias de muestreo de algunas aplicaciones

típicas:
Frecuencia de muestreo Aplicación

8 Telefonía digital
22.05 Computadoras personales
32 Audio digital y televisión
44.10 Discos compactos
48 Cintas de audio digital y HDTV

TABLA. N° 1 Frecuencia de muestreo[14].
4.3 LA EVOLUCIÓN DE LOS FORMATOS DE MUSICA
Puede decirse que la música es el arte que consiste en dotar a lossonidos y los
silencios de una cierta organización. El resultado de este orden resulta lógico,
coherente y agradable al oído.La música en la historia humana es un registro
continuo y se ha desarrollado gracias al ingenio de la mente creadora del hombre.
Los primeros formatos de música fueron llevados a discos vinílicos y
reproducidos mediante las famosas vitrolas. Hace medio siglo, una empresa
americana sacó la primera radio portátil. Partió así una nueva forma de ver la
música . La cosa es que desde esa primera radio, este campo ha evolucionado de
forma escandalosa, ésta es la evolución de la reproducción de la música [9].
VITROLAS
La vitrola es un antiguo reproductor de música (Fig. 7) que funcionaba a cuerda
sin electricidad, para su época fue una revolución en el campo del sonido musical
y fue el instrumento más popular en la reproducción musical hasta mediados del
siglo 19.Sin embargo el invento del radio y otros medios con electricidad en 1925
permitiendo así el desarrollo de una nueva tecnología que fue reemplazando a la
antigua vitrola.
17
Fig. Nº 7Vitrola a cuerda.

RADIO PORTÁTIL
Fue inventada por Texas Instruments en 1952 Regency, lanzó al mercad o la TR-1
en noviembre de 1954, como se aprecia en la Fig. Nº 8.
Contexto: En aquellos años, la radio era el principal y más moderno medio de
comunicación. La llegada de la portátil supuso un cambio gigantesco.
FIG. N°8 Modelo de radio TR-1

EL RADIOCASETE
Las primeras aparecieron a fines de los 70. Su momento de gloria vino con los
ochenta, de la mano del hip hop y el breakdance.
Qué hacía: Venía con un sintonizador y un reproductor de casetes (a veces tenía
espacio para dos casetes, y desde los 90 también se fabricaron algunas con
reproductor de CD), se muestra en la Fig. Nº 9.
18
FIG. N°9RadioCaset.
EL WALKMAN
El primero en su tipo fue un aparato llamado Stereobelt, y fue inventado en 1972
por un brasileño -alemán llamado Andreas Pavel.
Era un reproductor portátil de casetes, con audífonos que emitían sonido estéreo.
El gran agregado aquí son los cascos, que “privatizan” la experiencia musical y le
ponen banda sonora a lo que sea que uno esté haciendo, como se aprecia en la
Fig.Nº 10.
FIG. N°10 Walkman

EL DISCMAN
Aparece en 1984, El primer aparato, bien poco práctico, salió a la calle con el
nombre de D50. El que vemos en esta foto (FIG.11) es un desarrollo posterior y
algo más sofisticado, el D121(Fig. Nº 11).
Reproducía discos compactos en un aparato pequeño. Al principio, no convenció
mucho ya que el disco se saltaba si uno se movía mucho. Pero cuando mejoró la
tecnología, sustituyo con creces a los casetes.
19
FIG. N° 11 Discman modelo D121

EL MINIDISC
Sony lanzó las prim eras unidades en enero de 1992( Fig.Nº 12). Lo que hacía era
reproducir discos algo más pequeños que los CD, pero con calidad de audio
similar. Podías grabar tus propios discos, y acceder a su contenido de manera muy
rápida. Fue un gran fracaso.
FIG. N° 12Minidisc
REPRODUCTOR MP3
Apareció en 1998, y fue una idea de la empresa surcore ana
SaeHanInformationSystems. Almacena y reproduce música en form ato digital
(Fig. Nº 13).
Sus primeras versiones sólo disponían de una memoria de 32MB. O sea, só lo
cabían unas 8 canciones. Pero su capacidad de almacenaje ha crecido
rápidamente. Hoy lo habitual es tener uno de 2GB, con espacio para 500
canciones. Lo importante es que con este aparato nace una época en la cual los
20
CD van en baja y la descarga de mús ica por Internet es gratis y disponible para
todos.
FIG. N° 13 Reproductor MP3
IPOD CLÁSICO
La primera versión se lanzó en septiembre de 2001. Funciona como un MP3, pero
con mayor capacidad de almacenaje y un diseño más sofisticado (Fig. Nº 14)
Apple saca al mercado este reproductor de música consciente del boom de los
MP3 y el declive de los CD, pero sumando un cuidadísimo diseño. Y además,
nuevas versiones, como Mini, Nano, Shuffle y el increíble Touch. Son más caros
que un MP3 convencional, pero vale la pena.
FIG. N° 14 IPOD Clásico
21
MÓVILES CON MP3

Aparecen en 2005, con el Sony Ericsson Walkman (Fig. Nº 15). Desde 2004,
existían móviles capaces de reproducir ringtones en MP3, pero sin la memoria
suficiente para canciones.
Además de ser un teléfono móvil, es un reproductor MP3. La mayoría de ellos
tiene memoria externa y el espacio suficiente para almacenar hasta 500 canciones.
FIG. N° 15 Móvil con MP3

4.3HISTORIA DEL FORMATO MP3
Este formato fue desarrollado principalmente por KarlheinzBrandenburg, director
de tecnologías de medios electrónicos del Instituto Fraunhofer IIS, perteneciente
al Fraunhofer-Gesellschaft - red de centros de investigación alemanes - que junto
con Thompson Multimedia controla el grueso de las patentes relacionadas con el
MP3. La primera de ellas fue registrada en 1986 y varias más en 1991. Pero no
fue hasta julio de 1995 cuando Brandenburg usó por primera vez la extensión
.mp3 para los archivos relacionados con el MP3 que guardaba en su ordenador.
Un año después su instituto ingresaba en concepto de patentes 1,2 millones de
euros. Diez años más tarde esta cantidad ha alcanzado los 26,1 millones.
Tras el desarrollo de reproductores autónomos, portátiles o integrados en cadenas
musicales (estéreos), el formato MP3 llega más allá del mundo de la informática
[6].
22
El formato MP3 se convirtió en el estándar utilizado para streaming de audio y

compresión de audio con pérdida de mediana fidelidad gracias a la posibilidad de
ajustar la calidad de la compresión, proporcional al tamañ o por segundo (bitrate),
y por tanto el tamaño final del archivo, que podía llegar a ocupar 12 e incluso 15
veces menos que el archivo original sin comprimir.
Fue el primer formato de compresión de audio popularizado gracias a Internet, ya
que hizo posible el intercambio de ficheros musicales. Los procesos judiciales
contra empresas como Napster y AudioGalaxy son resultado de la facilidad con
que se comparten este tipo de ficheros. A principios de 2002 otros formatos de
audio comprimido como Windows Media Audio y OggVorbis empiezan a ser
masivamente incluidos en programas, sistemas operativos y reproductores
autónomos, lo que hizo prever que el MP3 fuera paulatinamente cayendo en
desuso, en favor de otros formatos, como los mencionados, de mucha mejor
calidad. Uno de los factores que influye en el declive del MP3 es que
tiene patente. Técnicamente, el tener una patente no significa que su calidad sea
inferior ni superior, pero impide que la comunidad pueda seguir mejorándolo y
puede obligar a pagar por la utilización de algún códec. Esto es lo que ocurre con
los reproductores de MP3. Aun así, a finales de 2009, el formato mp3 continúa
siendo el más usado y el que goza de más éxito, sacando nuevas versiones [7]
DEFINICIÓ N
MPEG-1 Audio Layer III o MPEG-2 Audio Layer III, más comúnmente conocido
como MP3, es un formato de compresión de audio digital patentado que usa un
algoritmo con pérdida para conseguir un menor tamaño de archivo. Es un formato
de audio común usado para música tanto en ordenadores como en reproductores
de audio portátil.
23
MP3 fue desarrollado por el Moving Picture ExpertsGroup (MPEG) para formar
parte del estándar MPEG-1 y del posterior y más extendido MPEG-2. Un MP3
creado usando una compresión de 128kbit/s tendrá un tamaño de
aproximadamente unas 11 veces menor que su homónimo en CD. Un MP3
también puede comprimirse usando una mayor o menor tasa de bits por segundo,
resultando directamente en su mayor o menor calidad de audio final, así como en
el tamaño del archivo resultante.
4.3.1UTILIDAD DEL FORMATO MP3
El formato de audio usado en los discos compactos (CD) usa 44.1 Khz y 16 bit, es
decir, que graba 44.100 muestras de 16 bit (2 bytes) cada segundo. Esta ingente
cantidad de datos es la que permite obtener un sonido de muy alta fidelidad.
Si multiplicamos 2 bytes * 44.100 obtenemos que se necesitan 88.200 bytes por
segundo en cada canal del estéreo. Así pues, necesitamos 176.400 bytes por
segundo en una grabación estereofónica.
Multiplicando por 60, veremos que un só lo minuto de grabación en c alidad CD
ocupa la friolera de 10.584.000 bytes, es decir, 10.09 Mb por minuto.
Una pieza de 4 minutos ocuparía, por lo tanto, unos 40 Mb. Y comprimido al
formato MP3 a razón de 10 a 1 serían 4Mb por canción.
4.3.2ESTRUCTURA DE UN FICHERO MP3
Un fichero Mp3 se constituye de diferentes framesMP3 que a su vez se componen
de una cabecera Mp3 y los datos MP3. Esta secuencia de datos es la denominada
"stream elemental". Cada uno de los Frames son independientes, es decir, una
persona puede cortar los frames de un fichero MP3 y después reproducirlos en
cualquier reproductor MP3 del Mercado. La cabecera consta de una palabra de
sincronismo que es utilizada para indicar el principio de un frame válido. A
continuación siguen una serie de bits que indican que el fich ero analizado es un
24
fichero Standard MPEG y si usa o no la capa 3. Después de todo esto, los valores
difieren dependiendo del tipo de archivo MP3. Los rangos de valores quedan
definidos en la ISO/IEC 11172-3.11
4.3.3 TRANSFORMADA DE FOURIER EN EL MP3

En matemáticas, la transformada de Fourier discreta, designada con frecuencia
por la abreviatura DFT (DFT: Discrete Fourier Transform), y a la que en
ocasiones se denomina Transformada de Fourier Finita, es una transformada de
Fourier ampliamente empleada en tratamiento de señales y en campos afines para
analizar las frecuencias presentes en una señal muestreada, resolver ecuaciones
diferenciales parciales y realizar otras operaciones, como convoluciones. Es
utilizada en el proceso de elaboración de un fichero MP3 [12].
La transformada de Fourier discreta puede calcularse de modo muy eficiente
mediante el algoritmo FFT [11].
4.4SERIES DE FOURIER Y TRANSFORMADA DE FOURIER PARA

SEÑALES CONTINU AS
La transformada de Fourier es básicamente el espectro de frecuencias de una
función. Un buen ejemplo de eso es lo que hace el oído humano, ya que recibe
una onda auditiva y la transforma en una descomposición en distintas frecuencias
(que es lo que finalmente se escucha). El oído humano va percibiendo distintas
frecuencias a medida que pasa el tiempo, sin embargo, la transformada de Fourier
contiene todas las frecuencias contenidas en todos los tiempos en que existió la
señal; es decir, en la transformada de Fourier se obtiene un sólo espectro de
frecuencias para toda la función.
4.4.1Definición formal
La función ( ) definida por.
( )= () (1)
25
( ) = ℱ[ ( )] = () ℱ (2)
Se conoce como la integral de Fourier o transformada de Fourier de , y la
()
operación de integración se simboliza frecuentemente por : esto es,
( )
( )=ℱ [ ( )
( )] = 21 ( ) (3)
Análogamente es el símbolo que se utiliza para indicar la operación inversa
ℱ
o sea, obtener cuando está dado; esto es,
() ( )
y
Y se denomina transformada inversa de Fourier de . Las ecuaciones (1)
(2) se conocen a menudo como par de transformadas de Fourier.
4.4.2Teorema de Existencia de la Transformada de Fourier y propiedades

Si la función f satisface la ecuación (4 ) entonces existe ( )
| ( )| < ∞ (4)
Demostración
De donde = cos − sin
De la fórmula de Euler se tiene que:
| |= cos + sin =1
() = | ( )|,
Se sigue que si
()
Es finita, entonces | ( )| = ()
26
Es finita, es decir ℱ[ ( )] . | ( )| ∅( )
L a función
( ) () ()
( ) = ℱ[ ( )] es, general, compleja y, se tiene
fase de
|
( )| = + () ∅( )
se denomina espectro
Donde =
de magnitud de , ,y , espectro de
( ).
Ahora si es real, demostraremos que las partes real e imaginaria de son
( )= ( ) cos , (5)
(5) y (6).
()
dadas en
()
( )=− ( ) sin , (6)
Así mismo, demostraremos que ( ) y ( ) son funciones par e impar de

respectivamente; es decir, ,
( )= (− ), (7)
( )=− (−
), (8)
(− ) = ∗( ), (9)
) denota el conjugado complejo de

Donde ∗( ( ).
En efecto se tiene:
Si ( ) es real, entonces, mediante la identidad
=cos − sin
Es posible expresar la relación (1) como sigue:
() = ()
27
= ( ) cos − ( ) sin
= () + ( ),
Igualando las partes real e imaginaria (10)
se tienen:
( )= ( ) cos
( )=− ( ) sin
.
( ) es real, se tiene
Puesto que
(− )= ( ) cos(−
) = ( ) cos = ( ),
(− ) = − ( ) sin(− ) = ( ) sin =− ( ).
Por lo tanto, ( )
es la función par de y ( )
es una función impar de .
Por (7) y (8),
) ) ( ) ∗( )
se tiene
( ) ( )
=(− + (− = − =
El hecho de que relación (9), es una condición necesaria para .
que sea real,
no quiere decir que sea suficiente; por ende, demostraremos que
dicha ecuación
()
es es una condición necesaria y suficiente para que sea real.

En efecto veamos: ()
( ), (11)
Sea () = ()+
()= () + ()
Donde ( ) y ( ) son funciones reales. Entonces de (2), se tiene

28
1
()= 2 ( )
1
2
= [ ( )+ ( )](cos + sin )
21 [ ( ) cos − ( ) sin ]
=
1
2
+ [ ( ) sin + ( ) cos ] . (12)
Por tanto ( ) = 2
1
[ ( ) cos − ( ) sin ] . (13)
( ) = 21 [ ( ) sin + ( ) cos ] . (14)
(− ) = ( )) ( ) ) ( )
∗
Ahora, si , entonces
(− = −
(− =y don funciones
En consecuencia, impares de , y el
es una función impar de . Por consiguiente de los
integrando de (14)
(
) ( )
coeficientes de Fourier de
sin
(sabemos que una función periódica
ondas simétricas
cos
impar, su serie de Fourier consta de términos del seno solamente).
Entonces se tiene. ( ) = 0,
Es decir ( ) es real.
Entonces si par de
es real, demostraremos que su espectro de magnitud es , y que su espectro de fase es una función impar de
es una función
()
|( )|
En efecto, se tiene: ∅( )
29
Ahora bien por
(−
(4),
)=
se tiene
().
(15)
Si ( ) es real, entonces, por (9) se tiene
∗( )= |( )| ∅( ). (16)
)| .
Y por tanto,
(−
) = | (−
∅( )
∅( ) (17)
| (− )| =
|( )| (18)
Por consiguiente, ∅( )
| (− ))| = | (−) )|, (19)
∅(− = −∅( . (20)

La transformada de Fourier es es real, entonces
una función real es una
función par de , y que la transformada de
Fourier de una función real es
() ()
()
imaginaria pura, entonces ( ) es una función par de .
Comprobemos la afirmación anterior

Entonces por
ℱ[ ()] =
(5) y (6) se
(
tiene,
)= (
)+
( ), (21)
Sea
( )= ( ) cos , (22)
( )=− ( ) sin (23)

,
( )= ( )
Si y ( )=0 , entonces integrando de (23) debe ser impar con
respecto a , puesto que es un función impar de , debe ser un
función par de . sin ()
Otra alternativa de comprobar la afirmación anterior es como sigue:
( ) = 0, se tiene
Por (13), con
30
( ) = 21 ( ) cos
=1 ( ) cos , (24)
Donde, por (5), se tiene

( )= ( ) cos
. (25)
)
Según (24), es obvio que .
(−
Análogamente si
(22) debe ser impar con respecto a
( )= (
=
,es (decir,)
)
. Como
(
)= 0
, entonces el integrando de es una función par de ,
debe ser una función impar de . cos ()
(
O, utilizando nuevamente (13) y si ) = 0, entonces
() =− 21 ( ) sin
1
tiene
Donde por 6), se ()=− ( ) sin , (26)
( ) = −2 ( ) sin . (27)
(− ) = − ( ).
Según (26), también es obvio que
De los resultados anteriores se concluye que si ( ) es una función real y
ℱ[ ( )] = ( )= ( )+ ( ),
Entonces
ℱ[ ( )] = ( ), (28)
ℱ[ ( )] = ( ), (29)
31
Donde ( )= ( )+ ( ), siendo y las componentes par e impar de ( ), respectivamente.
() 0< <∞ ()
4.4.3Transformada Coseno
Si está definida solo para , demostrar que se puede

representar por:
()= 2 ( ) cos , (30)
( ) está dado por

Donde
( )= ( ) cos
, (31)
0< <∞
() ()
par. ) ()
En efecto:
Si está definida solo para se puede definir para valores
negativos de por la ecuación , por lo que la función resultante es
En este caso se supone un comportamiento(−=

conveniente de , para valores
supuesto, se debe tener
negativos del tiempo; al interpretar los resultados, por ()
presente que está definida solo para mayor de cero.

define
()
Si ahora de
( )= ( ) cos ,
Entonces, por (24) y (25), se tiene
ℱ[ ( )] = ( ( ) =2 ( ) cos (32)
)= ( ) cos ,
( )se denomina transformada coseno de Fourier de ( ),la cual se denotará por

32
() ()=ℱ [ ( )] = 2 ( ) cos , (33)

0< <∞ ()
4.4.4Transformada Seno
Si está definida solo para , demostrar que se puede

representar por:
()= 2 ( ) sin , (34)
( ) está dado por

Donde
() ( )= ( ) sin<∞
, (35)
Veamos si se cumple la relación (34) , en efecto:
0< ()
impar. (− ) = − ( )
Si está definida solo para se puede definir para valores

negativos de por la ecuación , por lo que la función resultante es
( )= ( ) sin ,
Si ahora de define
Entonces, por (26) y (27), se tiene
() = 2 ( ) sin
( ) Se denomina transformada seno de Fourier, la cual se denotará por
ℱ [ ( )] = ( )= ( ) sin , (36)
()=ℱ [ ( )] = ( ) sin , (37)

2
33
4.4.5 INTERPRETACIÓN DE LA TRANSFORMADA DE FOURIER
Si se supone que es periódica con periodo , entonces se puede

serie de Fourier compleja
()
expresar como la ()
()= =1 , =2 , (38)
Donde () . (39)
Si ahora se considera que a medida que ,

respectivamente, en
entonces (38) y (39) se convierten, → ∞, →∆ =2∆,∆ =
()= , (40)
( ∆ )
=∆ (∆ ) . (41)
()
() = 1 [ ( ) ]
Siguiendo un argumento similar utilizado en la derivación de
Se observa que si 2 tal que

tener armónicos discretos correspondientes a
. En otros términos, en el, todo el valor
límite, en vez de ∆ → 0, →∞ ∆ →
de es permitido. De esta manera en vez de , se tiene , y por (41), se

( )
( )
tiene ∆lim ∆
= () = ( ). (42)
34
( ) = ( ), (43)
Según (42) se observa que
= 2 , se tiene
O, puesto que
1
2
( ) = ( ) () =
1 ( ) (44)
Entonces (40) se convierte en
2
1
2
= ( ) . (45)
Esta ecuación muestra que representa la magnitud infinitesimal de
angular .
un armónico a la frecuencia |( )|
Estos armónicos tienen frecuen cia fundamental cero y están

( → )
separados por infinitésimos.
| ( )| ( )
|( )| |(
)|
Aunque es infinitesimal, es finito; por esta razón la gráfica

vs se le denomina espectro continuo y a se le denomina
generalmente, espectro de magnitud de .
()
La representación anterior de la función no periódica como suma de
exponenciales con la frecuencia fundamental teniendo a cero, no es un proceso
fácil de aceptar. A veces la interpretación que sigue el par de transformadas de
Fourier (1) y (2) será más directa y de mayor significado:
( ) = ℱ[ ( )] = ()
1
2
()=ℱ [ ( )] = ( )
35
Es decir, se supone() que cualquier función dada( tiene) dos modos() equivalentes de
representación: uno es el dominio del(tiempo,) , y el otro es en el dominio de la
frecuencia, . La ecuación (1) transforma la función , en el dominio del
tiempo, a su función equivalente , en el dominio del la frecuencia, y la
ecuación (2) invierte el proceso. La ecuación (1) analiza la función del tiempo en
un espectro de frecuencia y la ecuación (2) sintetiza el espectro de frecuencia para
obtener nuevamente la función en términos del tiempo.
4.4.6PROPIEDADES DE LAS TRANSFORMADAS DE FOURIER

ℱ=[ ()+ ( )] = ( )+ ( ). (42)
Propiedad de linealidad de la transformada de Fourier

1
Propiedad del escalonamiento de la transformada de Fourier
ℱ[ ( )] = | | . … (43)
La función ( ) representa la función ( ) contraída en la función del tiempo()
por un factor a. análogamente la función representa la función
expandida en la escala de frecuencia por el mismo factor . La propiedad del
escalonamiento, por consiguiente, afirma que la contracción del dominio del
tiempo es equivalente a la expansión en el dominio de la frecuencia y vice -versa.
Propiedadℱ[ de( −desplazamiento)]=() en el tiempo. de la transformada de Fourier(44).
Propiedadℱ de()desplazamiento=(−en la) .frecuencia de la transformada de Fourier(45).
ℱ[ ( )] = 2 (− ) (47)
Propiedad de simetría de la transformada de Fourier.
36
f´(t)
Ahora se buscara la relación entre la transformada de Fourier en una función ,

y la transformada de Fourier de su derivada . f(t)
Si ℱ[ ( )] = ( )y ( ) → 0 cuando → ±∞, entonces se cumple (48)
ℱ[ ′()]= ℱ[ ( )] (48)
Efecto verificamos si se cumple integrando por partes se obtiene
(48),
ℱ[ ( )] = ()
=
() | + () . (49)
( ) → 0 cuando → ±∞, se tiene

Puesto que
ℱ[ ( )] = () =
( ) = ℱ[ ( )].
En el problema anterior se demuestra que la diferenciación en el dominio del
tiempo corresponde a la multiplicación de la transformada de Fourier por ,
dado que cuando .
Se debe observar()→ 0que si →

tiene±∞un número finito se súbitas discontinuidades,
impulsos. Por consiguiente, la transformada de Fourier
entonces contiene
()
()
de
este caso, debe contener la transformada de Fourier de los impulsos
()
, en
en ℱ[
Se debe observar
()]=
que
(
()
, lo cual se ve en transformadas de Fourier de funciones especiales.
)(
(50) no
)
garantiza
=() ℱ
la existencia
[()], = 1, 2,
de
…
latransformada
(50 )
deFourier
Mediante aplicación repetida de (48) se obtiene
()
.
( )
( )
de ( ) ; solo indica que si la transformada existe, entonces está dada por
Si ℱ[ ( )] = ( ), ≠ 0, y
37
() = (0) = 0. (51)
Demostremos que la relación (52)
ℱ ( ) = 1 ( ) = 1 ℱ[ ( )]. (52)
En efecto:
∅( ) =
( ) ; (53)
Considerar la función
Entonces, ∅ ( ) = ( ) de donde, si ℱ[∅( )] = ∅( ), entonces, de (49), se tiene
ℱ [∅′( )]
Con tal que = ℱ[ ( )] = ∅( ). (54)
Por lim ∅( ) = ℱ[ ( ) = () = (0) = 0. (55)

1
∅( ) = 1 ( )] = ℱ[ ]; (56)
consiguiente,→
ℱ () =1 ( ) = 1 ℱ[ ( )]
Esto es,
≠ 0. Cuando = 0,
Observar que (52) solo se aplica cuando
ℱ[∅( )] = ∅( ) .
(57)
Cuando (0) = ∫ ( )
≠ 0, se tiene
38
ℱ () = 1 ( )= 1 ( )+ (0) ( ). (58)
4.4.7 CONVOLUCIÓ N
Sean las funciones
Entonces la convolución de funciones dadas está definida mediante:
() ()
=
()(− ) ∗
Sin embargo como todo en las matemáticas, la mejor y más confiable manera de
aprender nuevos conceptos es mediante la interpretación de modelos; donde se
puede explayar el mismo hasta obtener una manera general y totalizada del
análisis del problema. Es por este motivo que empezaremos este capítulo
mediante la Interpretación de la Convolución.
4.4.8 INTERPRETACIÓN DE LA CONVOLUCIÓN

La forma utilizada en este apartado, será analizada mediante la respuesta a un tipo de entrada en(especial,)=( para)( )los siguientes sistemas:
∗
Sea
Entonces para un sistema g(t) donde aplicaremos un tipo de entrada P (t),como se
parecía en la Fig.Nº 16, la cual la representaremos de la siguiente manera:
FIG. 16Función Impulso Unitario y el Delta de Dirac.
39
Podemos apreciar que para este tipo de entrada (P(t)) existe un tipo de respuesta
(Q(t)); como se aprecia en la Fig. Nº 17, en este caso asumamos que sea de la
siguiente manera:
FIG. 17 Respuesta a la entrada P(t).
Una de las propiedades importantes de la función impulso es la traslación o

corrimiento, como se puede apreciar en la Fig. Nº 18.
FIG.18 Propiedad de corrimiento.
40
El proceso de corrimiento, se aprecia en la Fig.Nº 19.
FIG.19 Proceso de corrimiento
Existirá la respuesta para los impulsos sucesivos (Fig. Nº 20)
FIG.20 Respuesta a los impulsos sucesivos

De las dos últimas gráficas (FIG.18 y FIG.19) podemos deducir:
∗( )= ( − ) ( )
41
)= ∗( ( − ) ( )
Cuando llevamos al límite T0
lim → ∗( ) = lim → (− ) ( )= (− )( )
= ()(− ) → : = ()(− )
∴ = ∗ = () ( − )
4.4.9TEOREMA DE LA CONVOLUCIÓN DE DOS FUNCIONES

La Transformada de Fourier de la convolución de dos funciones es igual al producto de las transformadasℱde{ cada}=unaℱ{de}ℱestas,{} de manera independiente, es
decir: ∗
DEMOSTRACIÓN DEL TEOREMA DE LA CONVOLUCIÓN
Tenemos por definición de la Transformada de Fourier.
( )= () , ( )=
()
Entonces:
( ) ( )= ()()
()
Si hacemos el cambio de variable: ( ; en la integral doble, la cual
) a las variables (). Por cálculo
deseamos transformar de variables u+v=x
u, v u, x
diferencial conocemos:
42
= ( , )
está dado por:
(
Entonces hallando el Jacobiano, el cual , )
(, ) 1 0
= = =1
(, ) 0 1
De donde:
( ) ( )= ( ) ( − )
= ( ) ( − )
[ ]
=ℱ ) ( − )
(
Como: ∗ = ( ) ( − )
( ) ( ) = ℱ{ }
Entonces: ∗
∴ ( ) ( ) = ℱ{ ∗ }
Y como cumple la transformada de Fourier, realizamos el proceso inverso y
también será válida para la Transformada Inversa de Fourier.
O sea:
ℱ{ ∗ } = ( ) ( )
ℱ ℱ{ ∗ } =ℱ { ( ) ( )}
43
1
2
∗ = ( ) ( )
4.4.10PROPIEDADES DE LA CONVOLUCIÓN
=
La convolución es CONMUTATIVA .
∗ ∗
Demostración:
Sea: t - x=y de donde dx = -dy.
→ −∞ ; → ∞
Además:
→∞; → −∞
∗ = ()(− ) =
( − ) ( )(− )
=− ( ) ( − )( ) = ()(− )
∗ =( ) ( − )
∴ ∗ = ∗
La convolución es ASOCIATIVA.
∗ ∗
DISTRIBUTIVA.
∗ ∗
[ ]ℎ=
La convolución es [ ℎ]
( )∗ ()= ()
nos resulta:
∗(
La siguientes convoluciones
+ ℎ) = ∗ + ∗ℎ
44
( )∗ (− )= (− )
)∗ (− )= (−
(− − )
4.4.11TEOREMA DE CONVOLUCIÓN EN EL TIEMPO
:
Sea: ℱ{ ( )} = ( ) ℱ{ ( )} = ( ),
ℱ ∗
() () = ℱ{ ( )}ℱ{ ( )} = ( ) ( )
Demostración: ()
∗
( )
ℱℱ ( )
∗
( )
: = [ () ( − ) ]
= ( )[ ( − ) ]
ℱ{ ( )} = ( − )
−
Por Propiedad:
ℱ{ ( − )} = ( )
Sustituyendo en (*)
∗
ℱ () ( ) =
( ) ( ) = ( )( )
ℱ ∗
() ( ) )
()
= (
∴ℱ ()
∗
() = ( )
( )
4.4.12TEOREMA DE CONVOLUCIÓN EN LA FRECUENCIA.
Sea: ℱ { ( )} = ( ) ℱ { ( )} = ( ),
45
: ℱ { ( )∗ ( )} = 2 ()()
( ) ( − )
=−= +=
Demostración: ℱ { ( )∗ ( )} = ℱ ( ) ( − ) ]
( ) ( ) ] ( ) ( )
ℎ :
( ) ]
( ) (59)
21
ℱ { ( )∗ ( )} = [
ℱ { ( )∗ ( )} =2
1
[
Haciendo el cambio de variable:
= 21 [
= 21 ()
Pero:
1
()=2 () − −−→ 2 ()= ()
1
=2 ( )[2 ( )]
Reemplazando en (59)
22()
Pero: = () − − − −(60)
46
Reemplazando en (60)
Con una función periódica de período T, y se hace T tienda a infinito,

entonces la función resultante deja de ser per iódica.
Ilustremos este proceso d e límite mediante un tren de pulsos rect angulares.
Se considera el tren de pulsos rectangulares siguiente.
, .
47
Para , se tiene la fu nción
Es evidente que delos gr áficos anteriores no es una función periódica, las

señales sonoras en general no son periódicas.
4.4.13 PROPIEDADES DE CONVOLUCIÓN Y MODULACI ÓN
DEFINICION
Dos de las propiedades má s importantes de las representaciones d e Fourier son
la convolución y la modula ción. Una forma importante de modulación se refiere
a la multiplicación de dos señales; una de ellas cambia o ¨modula ¨l a amplitud de
la otra.
Se va a demostrar que la convolución en el dominio del tiempo se transforma en
convolución en el dominio de la frecuencia. Por tanto pode mos analizar el
comportamiento de entrada-salida de un sistema lineal en el dominio de la
frecuencia utilizando la multiplicación de transformada en lu gar de señales
convolucionando en el tiempo .Lo anterior puede simplificar de manera
importante el análisis de sistemas y ofrecer bastante conocimiento acerca del
comportamiento del sistem a[13].
48
Tanto la propiedad de convolución como la de modulación son una consecuencia

son una consecuencia de las sinoides que son funciones características del sistema
LTI (LTI: Lineal Time Invariant)[15].
4.4.14 Convolución no periódica

Considere la convolución de dos señales no periódicas en tiempo continuo h(t) y
x(t)
∫ h( ) x(t − )
Se
y (t) = h (t)*x (t)
y (t) = (61)
expresa ahora x(t - ) en términos de la transformada de Fourier como se
indica
x(t - ) = ( ) (62)
Ahora se
sustituye esta expresión en la integral de convolución para obtener
∫ ( )
∫ ∫ ( )
y(t) = h( )
) (63)
y (t) =∫
h( ) ∫
( ) )
(64)
h( )
( )
Reconocemos la integral interna sobrecomo la transformada de Fourier de

o H(jw) en consecuencia y(t ) puede reinscribirse como
y(t ) = (65)
que y(t) es la inversa de Transformada de Fourier(FT) de .
De modo
∫
( ) ( )
corresponde a la
Concluimos que la convolución de señales en el tiempo ( ) ( )
multiplicación de transformadas en el dominio de la frecuencia como se describe

por medio de, la misma que se describe en la Fig.Nº 21.
FT
y (t) = h (t)*x (t) Y(jw)= ( ) ( )
49
Figura 21 Convolución en el dominio del tiempo y dominio de la frecuencia
4.4.15 Modulación
Si x(t) y z(t) son señales no periódicas, entonces deseamos expresar la
transformada de Fourier del producto y(t) = x(t) z(t) en términos de la
transformada de Fourier de x(t) y z(t)
Sea x(t) y z(t) en términos de sus FT
El ∫ ( )
X(t) = (66)
∫ ( )
Z(t) = ∫ (67)
termino del producto y(t) puede consecuentemente escribirse en la forma
∫
( ) ()
Y(t) = ∫ ( ) ( (68)
Y(t) = ∫ (w − v))
cambio de variable en n sustituyendo n= w-v para obtener
Efectuando ahora el ( ) ( )
50
En la integral interior sobre v se presenta la convolución de Z(jw) y X(jw ), en

tanto que la integral exterior sobre w es de la forma de representación de Fourier
para y(t). Por consiguiente identificamos esta convolución escalada por como
Y(jw) según indica
FT
y(t) = x(t)z(t) Y(jw) = X(jw)*Z(jw)
∫ ))
Donde (( −
X(jw)*Z(jw) = (69)
el dominio del tiempo conduce a la convolución en el
La multiplicación en ( )
dominio de la frecuencia
Aplicación
Una aplicación importante de la propiedad de modulación es comprender los
efectos de truncar una señal en su representación en el dominio de la frecuencia.
El proceso de truncar una señal se conoce también como ventaneo ya que
corresponde a ver la señal atreves de una ventana. La parte de la señal que es
visible a través de la ventana se trunca. Esta operación de ventaneo se representa
matemáticamente multiplicando la señal, digamos X(t) por una función ventana
W(t) que es cero fuera del intervalo de interés. Al denotar la señal con ventaneo
mediante Y(t), tenemos. Y(t) = X(t)W(t)
La más simple es la ventana rectangular, que se define como:
 1 si t 0,T 
h (t) 
0 en otro caso
51
V. MATERIALES Y MÉTODOS
Se siguió el esquema establecido en la Metodología de la Investigación y como el

presente trabajo corresponde a investigación básica, la misma que se fundamenta con
un método deductivo e inductivo. Se presenta la fundamentación teórica necesaria y
aplicaciones que se pueden hacer mostrando con un ejemplo concreto, se muestra la
que la Transformada de Fourier es un herramienta poderosa para tratamiento de
señales, el audio es una señal en general no periódica mediante la digitalización del
audio se aplica la Transformada Discreta de Fourier y el algoritmo que permite
comprimir el audio para formato MP3 está dado por el algoritmo
FFT[7].[11].
Los resultados obtenidos en esta investigación se comparan con otros estudios
hechos por investigadores dedicados a comprensión de audio y formatos de
comprensión.Para la realización de la investigación se ha hecho uso de las
bibliografías que se muestra en el ítem VIII de referencias. Asimismo, para la
implementación de la aplicación informática, se contó con un equipo INTELCore i5,
3.4GHZ Seis Núcleos, Disco Duro Sata 500 GB, Memoria RAM 4 GB 4000 DDR III,
Windows SEVEN 7, equipado con Microsoft® Visual Studio.
52
VI. RESULTADOS
Para dar resultados de la Investigación se da a partir de la T ransformada de
señales discretas y Algoritmo FFT. En las secciones 4.3 y 4.4se ha desarrollado la
teoría de la Transformada de Fourier para funciones o señales continuas. Si las
funciones continuas son reemplazados en todas las fó rmulas dadas por funciones
discretas o señales discretas se tiene la Teoría de Transformada de Fourier de
funciones o señales discretas, basado en ese enfoque se dará el resultado de la
investigación en la sección 6.1
6.1TRANSFORMADA DE FOURIER DE SEÑALES DISCRETAS Y
ALGORIMO PARA MP3
En la sección 4.4 se ha desarrollado la Teoría de Transformada de Fourier para
funciones continuas y que cumplen la condición de convergencia absoluta, la
Transformada de señales discretas es en realidad una particularidad donde la
función continua se reemplaza por una función discreta. El algoritmo para hallar
la Transformada de Fourier de funciones discretas está dada por el algoritmo FFT,
los detalle de este algoritmo están en el anexo del presente trabajo, el estudio del
orden de la complejidad de este algoritmo se ajusta a algoritmos rápidos, por eso
es una herramienta muy poderosa en tratamiento de señales, se puede obtener
mayor información y detalles en [12]. Se muestra en la Fig.Nº21 el esquema FFT.
53
6.1.1 ALGORITMO FFT PARA EL MP3

La transformada de Fourier discreta puede calcularse de modo muy eficiente
mediante el algoritmo FFT. (Ver detalles de este algoritmo en Anexo 2)
FIG. N° 21Esquema FFT
()= () ( )
( )( )
()= ( ) ( )() ( )
Donde: = ( )/es una raíz enésima de la unidad.
El algoritmo que se plantea está basado en el método denominado “doblamiento

sucesivo o procedimiento de descomposición”.
El ahorro o reducción en el número de operaciones es significativo para valores
de N como los que es doble esperar en imágenes prácticas, por ejemplo, para una
imagen de 1024 x 1024 pixels.
N = 1024, se tendría:
54
= 1.048.576log operaciones complejas.
Con FFT = 10.240 operaciones complejas
Con una reducción de 102.4:1, el tiempo de cómputo, empleando máquinas
equivalentes, se reduce a menos del 1% [12] y[15].
6.1.2 DIFERENCIAS CON OTROS FORMATOS
MP3 es un formato patentado por Thompson (por el que cobran importantes
sumas en concepto de derechos de reproductores) y utiliza la transformada rápida
de Fourier para codificar el sonido. Los formatos digitales de sonido tales como
MOD, MID, WAV y CMF donde los inconvenientes en el almacenamiento de
los archivos de sonido, velocidad y conversión eran ineficientes, el MP3 es un
formato de sonido que cambio el concepto de compresión de audio ya que
mantiene la calidad del sonido aprovechando la deficiencias en la percepción del
audio por el oído del ser humano.
En cambio, OGG (formato libre) utiliza la transformada de cosenos discreta
modificada y se espera que pronto pueda usar Wavelets, en forma mucho más
sofisticada de codificación y análisis, basada en armónicos.
La combinación de alta calidad y formato li bre del OGG está produciendo una
pequeña ventaja respecto al formato MP 3, si bien es lenta por la enorme
extensión de uso del mp3 y el desbordamiento de la existencia del OGG. Sin
embargo la vigencia de los formatos MP3 están popular que predomina en el
mercado del mundo musical [15].
En el proceso de compresión de audio se sigue un proceso y para mantener la
calidad del sonido se sigue las recomendaciones dadas por ISO/IEC 11172-3 [11].
55
6.1.3 CONVERSIÓN ANALÓGICO DIGITAL

Una vez aclaradas las diferencias básicas entre la tecnología analógica y la digital,
veamos ahora cómo se efectúa el proceso de conversión de una tecnología a otra.
Para realizar esa tarea, el conversor ADC (Analog-to-Digital Converter -
Conversor Analógico Digital) tiene que efectuar los siguientes procesos:
1.- Muestreo de la señal analógica.
2.- Cuantización de la propia señal
3.- Codificación del resultado de la cuantización, en código binario.
6.1.4 Muestreo de la señal analógica
Fig. N° 22 Señal analógica.

Representación gráfica de medio ciclo positivo (+) correspondiente a u na señal
eléctrica analógica de sonido, con sus correspondientes armónicos. Como se
podrá observar en la Fig. Nº 22, los valores de variación de la tensión o voltaje en
esta sinusoide pueden variar en una escala que va de “0” a “7” volt.
Para convertir una señal analógica en digital, el primer paso consiste en realizar
un muestreo (sampling) de ésta, o lo que es igual, tomar diferentes muestras de
tensiones o voltajes en diferentes puntos de la onda senoidal. La frecuencia a la
que se realiza el muestreo se denomina razón, tasa o también frecuencia de
muestreo y se mide en kilohertz (kHz). En el caso de una grabación digital de
56
audio, a mayor cantidad de muestras tomadas, mayor calidad y fidelidad tendrá la

señal digital resultante.
Durante el proceso de muestreo se asignan valores numéricos equivalentes a la
tensión o voltaje existente en diferentes puntos de la sinusoide, con la finalidad de
realizar a continuación el proceso de cuantiza ción.
Las tasas o frecuencias de muestreo más utilizadas para audio digital son las
siguientes:
24 000 muestras por segundo (24 kHz)
44 100 muestras por segundo (44,1 kHz) (Calidad de CD)
FIG. N° 23 Muestreo de la señal analógica
Para realizar el muestreo (sampling) de una señal eléctrica analógica y con

vertirla después en digital, el primer paso consiste en tomar valores discretos de
tensión o voltaje a intervalos regulares en diferentes puntos de la onda senoidal.
Por tanto, una señal cuyo muestreo se realice a 24 kHz, tendrá menos calidad y
fidelidad que otra realizada a 48 kHz. Sin embargo, mientras mayor sea el número
de muestras tomadas, mayor será también el ancho de banda n ecesario para
57
transmitir una señal digital, requiriendo también un espacio mucho mayor para
almacenarla en un CD o un DVD.
En la grabación de CDs de música, los estudios de sonido utilizan un estándar de
muestreo de 44,1 kHz a 16 bits. Esos son los dos parámetros requeridos para que
una grabación digital cualquiera posea lo que se conoce como “calidad de CD”.
[11].
6.1.5CONDICIÓN DE NYQUIST
El ingeniero sueco Harry Nyquist formuló el siguiente teorema para obtener una
grabación digital de calidad:
“La frecuencia de muestreo mínima requerida para realizar una grabación
digital de calidad, debe ser igual al doble de la frecuencia de audio de la señal
analógica que se pretenda digitalizar y grabar”.
Este teorema recibe también el nombre de “Condición de Nyquist”. Es decir, que
la tasa de muestreo se debe realizar, al menos, al doble de la frecuencia de los
sonidos más agudos que puede captar el oído humano que son 20 mil Hertz por
segundo (20 kHz). Por ese motivo se escogió la frecuencia de 44,1 kHz como ta
sa de muestreo para obtener “calidad de CD”, pues al ser un poco más del doble
de 20 kHz, incluye las frecuencias más altas que el sentido del oído puede captar.
Tasa de muestreo = doble de la frecuencia
Si no cumplo esta tasa al hacer no se puede recuperar la
∑ ( )ℎ ( − )
función original. 7
6.1.6 MULTIRESOLUCIONES Y FILTROS
En teoría de señales las funciones ortonormales son importantes para expresar una
señal como combinación lineal de elementos de la base ortonormal, esta idea
expande las series y la transformada de Fourier.
58
(. ) consideramos una
Sea ∈
colección de subespacios cerrados y anidados
2.⋃ ∈ V = L (R)
Que además cumplen las siguientes propiedades:

3. ⋂ V = {0}
1.
4. Si ( ) ∈ => −2 ∈
5. Si ( ) ∈ => ∈
Y ∃∅( ), función Scaling, tal que: ∅( − )∈

base ortonormal de
1 −2
en general:
∅ ( ) = 2 ∅( 2 )∈
Esta familia de subespacios cumpliendo estas condiciones se le conoce como

Multiresolución.
Ejemplo de Multiresolucion.
V j  f  L 2 constantes en  n2 j
,  n  1 2 j 
e .d .
V 0  f  L
2
constantes en  n, n  1 
V 1   f
 L
2
constantes en  2n, 2  n  1  
.......... .......... .......... .....
V  
f  2
constantes en  n ,  n  1   
 1  L   
  2 2  
Cumplen las 4 primeras condiciones de manera bastante obvia y tiene como función scaling:
FIG. Nº 24 Ejemplo de multiresolución

59
6.1.7 PROPIEDADES DE LA FUNCIÓN SCALING

Veamos a continuación 5 importantes propiedades de la función Scaling.
 
  n Z 0  
a)  t-n b a s e o r t o n o r m a l d e V 
ˆ ˆ
b)  w 2     w 
  
t
 
    
c) ˆ w 2 2 k  1 ˆ
ˆ
d) S o p   w
ˆ k
Cumpliéndose la igualdad, e.d Sop  w   2    t   t.q. k  2 
ˆ   
ˆ
e)Si w e s c o n tin u a  0 
6.1.8 CUANTIZACIÓN DE LA SEÑAL ANALÓGICA

Una vez realizado el muestreo, el siguiente paso es la cuantización (quantization)
de la señal analógica . Por tanto, la cuantización representa el componente de
muestreo de las variaciones de valores de tensiones o voltajes tomados en
diferentes puntos de la onda sinusoidal, que permite medirlos y asignarles sus
correspondientes valores en el sistema numérico decimal, antes de convertir esos
valores en sistema numérico binario, como se muestra en la Fig.25.
FIG. N°25Cuantización de la Señal analógica.

Proceso de cuantización (quantization) de la señal eléctrica analógica para su
conversión en señal digital.
60
6.1.9 CODIFICACIÓN DE LA SEÑAL EN CÓDIGO BINARIO

Después de realizada la cuantización, los valores de las tomas de voltajes se
representan numéricamente por medio de códigos y estándares previamente
establecidos. Lo más común es codificar la señal dig ital en código numérico
binario, la misma se muestra en la Fig.Nº 26.
FIG. N° 26 Esquema de la codificación binaria

La codificación permite asignarle valores numéricos binarios equivalente s a los
valores de tensiones o voltajes que conforman la señal eléctrica analógica
original.
En este ejemplo gráfico de codificación, es posible observar cómo se ha obtenido
una señal digital y el código binario correspondiente a los niveles de voltaje que
posee la señal analógica.
La siguiente tabla muestra los valores numéricos del 0 al 7, pertenecientes al
sistema decimal y sus equivalentes en código numérico binario. En la tabla Nº
4( se puede observar que utilizando sólo tres bits por cada número en código
binario, se pueden representar ocho niveles o estados de cuantización.
61
Valores en volt en Sistema Conversión a Código Binario

Decimal
0 000
1 001
2 010
3 011
4 100
5 101
6 110
7 111
TABLA. N° 4[7].
En la tabla N°5se puede ver la sustitución que se ha hecho de los valores

numéricos correspondientes a los voltajes de las muestras tomadas de la señal
analógica utilizada como ejemplo y su correspondiente conversión a valores en
código binario.
62
Valor de los voltajes de la señal Conversión a Código Binario

analógica del ejemplo
0 000
2 010
3 011
4 100
6 110
7 111
7 111
5 101
4 100
3 011
0 000
TABLA. N° 5[11].
6.1.10Compresión de voz
Se ha realizado desde hace bastantes años, sobre todo para aplicaciones en
comunicaciones telefónicas (300 -3400 Hz) y el modelo psicoacústico se basó más
en las características del tracto vocal humano que en las características
perceptuales, es decir, las propiedades del sistema auditivo.
6.1.11Compresión de audio genérico:
El objetivo es la compresión de audio de “alta fidelidad”, en principio con un
ancho de banda de 20 Hz a 20 kHz. El primer estándar internacional fue MPEG
(Motion Picture ExpertsGroup).
El modelo psicoacústico se basa principalmente en las características perceptuales
del sistema auditivo humano.
63
“Debilidades” del oído aprovechables para compresión”

• Resolución dependiente de la frecuencia
El oído no es capaz de discernir diferencias pequeñas en frecuencia dentro de las
bandas críticas.
• Enmascaramiento auditivo
Cuando dos señales de frecuencias cercana s están ambas presentes, la más
intensa enmascara a la menos intensa.
Una señal enmascarada debe ser más intensa que cierto umbral de ruido para que
pueda percibirse. Esto hace posible introducir ruido de cuantificación inaudible.
Los principales estándares de compresión son MPEG y Dolby AC3.
En MPEG se define el decodificador, o más bien los parámetros del flujo binario
a decodificar. El codificador no se define, pero debe cumplir con producir un
flujo binario válido (compliant).
6.1.12 DETALLES TÉCNICOS
En esta capa existen varias diferencias respecto a los estándares MPEG-1 y
MPEG-2, entre las que se encuentra el llamado banco de filtros híbrido que hace
que su diseño tenga mayor complejidad. Esta mejora de la resolución frecuencial
empeora la resolución temporal introd uciendo problemas de pre-eco que son
predichos y corregidos. Además, permite calidad de audio en tasas tan bajas como
64Kbps.
64
6.1.13BANCO DE FILTROS
El banco de filtros utilizado en esta capa es el llamado banco de filtros híbrido
polifase/MDCT. Se encarga de realizar el mapeado del dominio del tiempo al de
la frecuencia tanto para el codificador como para los filtros de reconstrucción del
decodificador. Las muestras de salida del banco están cuantizadas y proporcionan
una resolución en frecuencia v ariable, 6x32 o 18x32 subbandas, ajustándose
mucho mejor a las bandas críticas de las diferentes frecuencias. Usando 18
puntos, el número máximo de componentes frecuenciales es: 32 x 18 = 576.
Dando lugar a una resolución frecuencial de: 24000/576 = 41,67 H z (si
fs = 48 Khz.). Si se usan 6 líneas de frecuencia la resolución frecuencial es menor,
pero la temporal es mayor, y se aplica en aquellas zonas en las que se espera
efectos de preeco (transiciones bruscas de silencio a altos niveles energéticos).
Según su respuesta en frecuencia, los filtros se pueden clasificar básicamente en

cuatro categorías diferentes:
Filtro pasa bajos: Son aquellos que introducen muy poca atenuación a las
frecuencias que son menores que una determinada, llamada frecuencia de corte.
Las frecuencias que son mayores que la de corte son atenuadas fuertemente.
Filtro pasa altos: Este tipo de filtro atenúa levemente las frecuencias que son
mayores que la frecuencia de corte e introducen mucha atenuación a las que son
menores que dicha frecuencia.
Filtro pasa banda: En este filtro existen dos frecuencias de corte, una inferior y
otra superior. Este filtro sólo atenúa grandemente las señales cuya frecuencia sea
menor que la frecuencia de corte inferior o aquellas de frecuencia superior a la
frecuencia de corte superior. Por tanto, sólo permiten el paso de un rango o banda
de frecuencias sin atenuar.
65
Filtro elimina banda: Este filtro elimina en su salida todas las señales que tengan
una frecuencia comprendida entre una frecuencia de corte inferior y otra de corte
superior. Por tanto, estos filtros eliminan una banda completa de frecuencias de
las introducidas en su entrada, tal como se muestra en la Fig. N° 27.
FIG. N° 27 Esquema de filtros
6.2 EL MODELO PSICOACÚSTICO

La compresión se basa en la reducción del margen dinámico irrelevante, es decir,
en la incapacidad del sistema auditivo para detectar los errores de cuantificación
en condiciones de enmascaramiento. Este estándar divide la señal en bandas de
frecuencia que se aproximan a las bandas críticas, y luego cuantifica cada
subbanda en función del umbral de detección del ruido dentro de esa banda. El
modelo psicoacústico utiliza un método denominado predicción polinómica. 6
Analiza la señal de audio y calcula la cantidad de ruido que se puede introducir

en función de la frecuencia, es decir, calcula la “cantidad de enmascaramiento” o
umbral de enmascaramiento en función de la frecuencia.
El codificador usa esta información para decidir la mejor manera de gastar los bits
disponibles. Los estudios demuestran que la distorsión generada es imperceptible
para el oído experimentado en un ambiente óptimo desde los 256 kbps y en
condiciones normales. Para el oído no experimentado, o común, con 128 kbps o
hasta 96 kbps basta para que se oiga "bien" (a menos que se posea un equipo de
audio de alta calidad donde se nota excesivamente la falta de graves y se destaca
el sonido de "fritura" en los agudos). En personas que escuchan mucha mú sica o
66
que tienenexperiencia en la parte auditiva,desde 192 o 256 kbps basta para oír
bien. La música que circula por Internet, en su mayoría, está codificada entre 128
y 192 kbps.[6].
6.2.1 CODIFICACIÓN Y CUANTIFICACIÓN
La solución que propone este está ndar en cuanto a la repartición de bits o ruido,
se hace en un ciclo de iteración que consiste de un ciclo interno y uno externo.
Examina tanto las muestras de salida del banco de filtros como el SMR (signal-to-
mask ratio) proporcionado por el modelo psicoacústico, y ajusta la asignación de
bits o ruido, según el esquema utilizado, para satisfacer simultáneamente los
requisitos de tasa de bits y de enmascaramiento. Dichos ciclos consisten en:
6.2.2 CICLO INTERNO
El ciclo interno realiza la cuantización no -uniforme de acuerdo con el sistema de
punto flotante (cada valor espectral MDCT: ModifiedDiscreteCosineTransform se
eleva a la potencia 3/4). El ciclo escoge un determinado intervalo de cuantización
y, a los datos cuantizados, se les aplica codificación d e Huffman en el siguiente
bloque. El ciclo termina cuando los valores cuantizados que han sido codificados
con Huffman usan menor o igual número de bits que la máxima cantidad de bits
permitida [16].
6.2.3CICLO EXTERNO
Ahora el ciclo externo se encarga de verificar si el factor de escala para cada
subbanda tiene más distorsión de la permitida (ruido en la señal codificada),
comparando cada banda del factor de escala con los datos previamente calculados
en el análisis psicoacústico. El ciclo externo termin a cuando una de las siguientes
condiciones se cumple:
* Ninguna de las bandas del factor de escala tiene mucho ruido.
* Si la siguiente iteración amplifica una de las bandas más de lo permitido.
67
* Todas las bandas han sido amplificadas al menos una vez.

6.2.4EMPAQUETADO O FORMATEADOR DE BITSTREAM
Este bloque toma las muestras cuantificadas del banco de filtros, junto a los datos
de asignación de bits/ruido y almacena el audio codificado y alguno s datos
adicionales en las tramas. Cada trama contiene información de 1152 muestras de
audio y consiste de un encabezado, de los datos de audio junto con el chequeo de
errores mediante CRC y de los datos auxiliares (estos dos últimos opcionales). El
encabezado nos describe cuál capa, tasa de bits y frecuencia de muestreo se están
usando para el audio codificado. Las tramas empiezan con la misma cabecera
desincronización ydiferenciación y su longitud puede variar. Además de tratar con
esta información, tambi én incluye la codificación Huffman de longitud variable,
un método de codificación entrópica que sin pérdida de información elimina
redundancia. Actúa al final de la compresión para codificar la información. Los
métodos de longitud variable se caracterizan , en general, por asignar palabras
cortas a los eventos más frecuentes, dejando las largas para los más infrecuentes
[7].
6.2.5 ESTRUCTURA DE UN FICHERO MP3
Un fichero MP3 se constituye de diferentes frames MP3 que a su vez se
componen de una cabecera MP3 y los datos MP3. Esta secuencia de datos es la
denominada "stream elemental". Cada uno de los Frames son independientes, es
decir, una persona puede cortar los frames de un fichero MP3 y después
reproducirlos en cualquier reproductor MP3 del Mercado. El grafico muestra que
la cabecera consta de una palabra de sincronismo que es utilizada para indicar el
principio de un frame válido. A continuación siguen una serie de bits que indican
que el fichero analizado es un fichero Standard MPEG y si usa o no la capa 3.
68
Después de todo esto, los valores difieren dependiendo del tipo de archivo MP3.
Los rangos de valores quedan definidos en la ISO/IEC 11172-3 [11].
6.2.6TRANSFORMADA DE FOURIER DISCRETA Y FICHERO MP3
En matemáticas, la transformada de Fourier discreta, designada con frecuencia
por la abreviatura DFT , y a la que en ocasiones se denomina transformada de
Fourier finita, es una transformada de Fourier ampliamente empleada en
tratamiento de señales y en campos afines para analizar las frecuencias presentes
en una señal muestreada, resolver ecuaciones diferenciales parciales y realizar
otras operaciones, como convoluciones. Es utilizada en el proceso de elaboración
de un fichero MP3.
6.2.7 CÓDEC DE AUDIO Y TIPO DE CÓDEC.
Un códec de audio es un códec que incluye un conjunto de algoritmos que
permiten codificar y decodificar los datos auditivos, lo cual significa reducir la
cantidad de bits que ocupa el fichero de audio. Sirve para comprimir señales o
ficheros de audio con un flujo de datos (stream) con el objetivo de que ocupan el
menor espacio posible, consiguiendo una buena calidad final, y
descomprimiéndolos para reproducirlos o manipularlos en un formato más
apropiado. Se implementa en software, hardware o una combinación de ambos.
Si obviamos las pérdidas producidas por el error de cuantificación, que en
muchos casos son inapreciables, los códecs pueden ser, según el tipo de
compresión, con pérdidas (lossy) o sin pérdidas (lossless).
6.2.8 CÓDECS DE AUDIO CON PÉRDIDAS
En audio se aprovechan las limitaciones del sistema auditivo humano (margen
frecuencial, umbral de audición, enmascaramiento temporal y/o enmascaramiento
frecuencial para comprimir los datos de audio. Se usan diferentes métodos para
eliminar los datos inaudibles:
69
 Transformada en el dominio frecuencial y eliminación de las frecuencia

inaudibles (inferiores a 20Hz y superiores a 20kHz, u enmascaradas por
otras frecuencias de mayor potencia).
 División del señal en subbandas de frecuencia que se aproximan a las
bandas críticas y cuantificar cada subbanda en función de un umbral de
detección del ruido dentro de la subbanda. De esta forma se analiza el señal
de audio y se calcula la cantidad de ruido (pérdidas inapreciables) que se
pueden introducir a cada rango de frecuencias, es decir, el umbral de
enmascaramiento.
 Predicción de datos.
 Caracterización de la voz a partir de una parametrización.
El nivel de compresión se puede controlar y depende de la calidad que se quiera
obtener, el tamaño del fichero, el ancho de banda de la red, el tiempo de
compresión.
Usualmente se utilizan compresiones máximas para transmisiones, especialmente
cuando son servicios en directo como telefonía (telefonía IPo celular) o
reproducciones en directo como podcasting (radio por internet o programas de
audio por internet).
6.2.9 CÓDECS DE AUDIO SIN PÉRDIDAS
Estos códecs utilizan una compresión sin pérdidas para minimizar el tamaño del
flujo de datos. Para realizar esta codificación se utilizan algoritmos basados en la
eliminación de la redundancia de la señal de audio, y por lo tanto en el grado de
predicibilidad de la información. Si la señal tiene patrones repetitivos, éste es
redundante y por lo tanto fácil de predecir.
70
Usualmente los patrones repetitivos de señal son más evidentes en otro dominio
(temporal, frecuencial...), es por esto que la transformación de la señal en función
de éstos patrones permitirá reducir o eliminar la redundancia.
En audio, igual que en vídeo, imagen o datos, la eliminación de la redundancia se
implementa:
 Transformaciones en otro dominio donde los patrones repetitivos sean más
evidentes.
 Predicción.
 Codificación entrópica: codificación de Huffman, codificación aritmética,
RunLengthCoding (RLE).
6.3 ESPECTROS SONOROS
La información acerca de qué frecuencias integran un sonido y cuáles son las
respectivas amplitudes y fases constituye lo que se denomina espectro del sonido.
Se suele representar con un par de gráficos con la frecuencia en las abscisas, y en
las ordenadas la amplitud o energía en uno y la fase en el otro. En este artículo se
definirán los cuatro tipos de espectros que existen.
Existen cuatro tipos de espectros. El primero de ellos (Fig.N° 28) corresponde a
los sonidos periódicos. El espectro en este caso está forma do por líneas verticales
equiespaciadas, siendo la primera la correspondiente a la frecuencia fundamental
o primer armónico, la segunda al segundo armónico, y así siguiendo. La altura de
cada línea espectral es la amplitud del armónico respectivo. Un caso particular lo
constituye un tono puro de frecuencia f0. Los tonos puros se encuentran rara vez
en la naturaleza, pero son de extraordinaria importancia como herramienta de
análisis, ya que todo sonido puede considerarse como formado por la
superposición de tonos puros de diversas frecuencias.
71
FIG. N°28 Superposición de diversas frecuencias.
El segundo tipo (Fig. N° 29) de espectro corresponde a los sonidos no periódicos

con frecuencias identificables. En este caso el espectro contiene líneas espectrales
con separaciones no uniformes. Tanto en este caso como en el anterior, el espectro
se denomina discreto.
FIG. N°29 Espectro discreto
El tercer tipo (Fig. N° 30) se trata de los sonidos de espectro continuo, no

periódicos, cuyas componentes están demasiado próximas como para poder
discriminarse.
72
FIG. N° 30 Espectro continuo.

Debido a la gran cantidad de líneas que implicaría una representación mediante
líneas espectrales, se representa la densidad espectral, que es la energía por unidad
de frecuencia (Fig.N° 31).
FIG. N° 31 Densidad espectral.
El cuarto tipo de espectro(Fig. N° 32) es el espectro mixto, que es la

superposición de un sonido de espectro continuo y uno o más de espectro
discreto. De este tipo son la mayoría de los sonidos que percibimos.
73
FIG. N° 32 Superposición de espectro continuo y discreto.
6.3.1 TRANSFORMADA RAPIDA DE FOURIER Y COMPRESION DE

AUDIO
Efectivamente se demuestra que la Transformada de Fourier es una herramienta
que ha dado inicio el camino de la comprensión de Audio y Video, además la
tecnología de comprensión de audio mediante la Transformada de Fourier ha
originado que los investigadores diseñen algoritmos basados en la transformada
de Fourier que permitan comprimir eficientemente archivos grandes en pequeños,
para mostrar la potencia de la Transformada de Fourier muestro un ejemplo
desarrollado en la que se muestra un programa útil elaborado en MATLAB, la
misma que fue presentada como ejemplo en el curso de Matemáticas Avanzadas
en la FIEE de la UNAC (Código fuente en Apéndice) el resultado se da en la
Fig.Nº 33.
6.3.2 Ejemplo de Comprensión de voz por medio de la transformada de
Fourier en MATLAB (Programa fuente en la sección Apéndice )
Se muestra en la Fig. N°33.La entrada es un señal analógica o continua
(señal original), voz de un alumno Matemática Ava nzada del ciclo 2012-A,
también se muestra la magnitud de la transformada de Fourier y mediante
la transformada inversa se tiene la señal comprimida de la voz , si
74
se compara la señal original y la que resulta es prácticamente la misma lo

cual muestra la eficiencia del algoritmo FFT en la compresión de audio.
Fig.Nº33 Compresión de voz por medio de TFF
75
VIIDISCUSION
7.1Conclusiones
1La Transformada de Fourier es una herramienta matemática eficiente para
el tratamiento de señales continuas y discretas, siendo el algoritmo FFT que
muestra la potencia de compresión de una señal continua en un archivo
MP3.
2El formato MP3 es un formato de compresión de audio estándar en el
mundo de la música que proporciona un sonido de calidad muy cerca al
formato WAV del CD, pero con relaciones de compresiones de tasa más
altasque hacen que este formato sea preferido en el mundo de la música.
7.2Recomendaciones
 Se debe de aplicar otros algoritmos de la TFF a fin de minimizar el tiempo
de proceso y mejorar la calidad comprensión de audio.
 El estudio de la Transformada de Fourier se debe extender a la
Transformada de Wavelets que constituye actualmente un campo de
investigación muy requerida en tratamiento de señales.
 En la EAP de Ingeniería Electrónica de la FIEE-UNAC se debe
implementar el curso de PDS (PDS: Procesamiento Digital de Señales),
que permita implementar aplicaciones a la ingeniería de sonido y video.
76
VIII REFERENCIAS
[1]Berkhout,P.J.yEggermontL.D.J."DigitalAudioSystemas",IEEEASSP
Magazine,vol.2,Octubre1985,( pgs.45-69)
2Borrelli Robert y Courney, S. Coleman ECUACIONES DIFERENCIALES

CON MODELAMIENTO, primera edición, Editorial Prince Hall, México 2002.
(Pgs.243-347)
[3]BRACEWELL R., The Fourier Transform and its Applications, McGraw-Hill,

New York, 1965.(pgs. 12-45)
4CATAÑA VILLAR, Antonio. Series de Fourier y Aplicacion es, Madrid:
Editorial Pirámide, primera edición ,2002. ( Pgs.115-140).

[5] CHURCHILL, Complex Variables and Applications, McGraw-Hill, New
York, 1960,(Pgs. 9-24)
[6] COLEMAR ANTONIO, El sonido digital:

formatos,captura,edición,manipulación, conversión y grabación. Madrid, 2010,
(Pgs.3-56)
[7] CRESPO JULIO, Guía esencial MP3, Madrid, Prentice Hall, 2009,
(Pgs.2- 43).
8
E.KREYSZIG.MatemáticasAvanzadasparaingenier´ıa,volumenII.LimusaWiley,3 ra
edición,2000.( Pgs.86-102).
9H.F.DAVIS.Fourier SeriesandOrthogonalFunctions.DoverPublications,nc.,
1963.(Pgs. 67-129)
10LINDERD. Introducciónalas señales ylossistemas. McGrawHill,2002.
[11] MARCELO JUAN F., EVA MARTIN, MP3, MADRID, Ed. Anaya
Multimedia, 2000.(Pgs. 2-27)
12M.J. Roberts. Señ alesySistemas. Análisismediante métodos detransformaday

MatLab. McGrawHill,2005.(Pgs.23-68)
77
14Proakis
15
13 OOPENHEIM, Alan V. Señales y Sistemas. México: Editorial Prentice Hall,

segunda edición ,1994 . (Pgs.173-373)
J.G.and.Manolakis D.G.
TratamientoDigitaldeSenãles.PrenticeHall, 1998.(Pgs.3, 4,5, 10, 13, 88, 211,
233).
SoriaOlivasE.,Mart´ınezSober M
,J.V.FrancésVillora,andG.CampsValls.TratamientoDigitaldeSenãles.Problemasy
ejerciciosresueltos. PrenticeHall,Madrid, 2003.( P g s . 1,233)
[16]Zwicker,E.yFastl,H.Psychoacoustics:FactsandModels,Springer,Berlín,1990,( Pgs.
5-43)
78
APÉNDICE
1 Código fuente de Comprensión de voz por medio de Transformada de
Fourier.
79
80
81
82
83
84
85
86
87
2 Resultado de compresión de voz al correr el programa fuente en MATLAB.
88
ANEXO
1 TRANSFORMADA DE FOURIER Y EL ALGORITMO FFT(FCEF Y N UNIVERSIDAD
NACIONAL DE CORDOVA )
89

If Castro Vidal Fiee

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

If Castro Vidal Fiee

Загружено:

Авторское право:

Доступные форматы

UNIVERSIDAD NACIONAL DEL CALLAO

Facultad de Ingeniería Eléctrica y Electrónica

Informe Final del Proyecto de Investigación

“TRANSFORMADA DE FOURIER Y LOS MP3”

Docente: Lic. RAÚL PEDRO CASTRO VIDAL

(Resolución Rectoral Nº 1109-05-R)

Bellavista Agosto del 2012

4.1 CONCEPTOS PREVIOS

4.1.2 SONIDO DIGITAL 13

4.2 EVOLUCIÓN DE LOS FORMATOS DE MÚSICA 17

4.3.1 UTILIDAD DEL FORMATO PM3 24

4.3.3 TRANSFORMADA DE FOURIER EN MP3 25

4.4.4 TRANSFORMADA DE SENO 33

4.4.5 INTERPRETACIÓN DE LA TRANSFORMADA DE FOURIER 34

4.4.9 TEOREMA DE LA CONVOLUCIÓN DE DOS FUNCIONES 42

4.4.10 PROPIEDADES DE LA CONVOLUCIÓN 44

4.4.13 PROPIEDADES DE LA CONVOLACIÓN Y MODULACIÓN 48

El principio de la transformada de Fourier, desarrollada por primera vez en el

Gracias al nuevo algoritmo, denominado ¨Transformada Dispersa de Fourier

informática. “Está en la naturaleza, en las señales de vídeo, en las señales de

Una transformada más rápida implica que se necesita menos potencia

discretas eran las series de Fourier y la Transformada de Fourier.3

Las señales de audio, producto de trasduccionesacustoeléc tricas son en la gran

creados por el hombre, y de distorsiones lineales y alinéales propias del canal de

transmisión o el almacenamiento de audio digital con excelente calidad a tasa de

El desarrollo de MPEG-1 (en lo que a audio se refiere) se orientó hacia las

IV PARTE TEÓ RICA O MARCO TEÓ RICO

4.1 CONCEPTOS PREVIOS

La pérdida de la audición varia conforme al sexo y a la edad, tal como se puede

FIG. N° 1 Pérdida de audición humana.

computadora)MID (MID: Musical Instrument Digital), WAV (W AV: Waveform

FIG. N° 2 Procesado Digital

4.1.3 DIGITALIZACIÓN DE LA SEÑAL DE AUDIO

F IG. N°3 Proceso de muestreo.

A una frecuencia de muestreo diferente que la de Nyquist (Fig . 5 y Fig.6), el

FIG. N°5 Frecuencia de muestreo espectros solapados

FIG. N°6 Frec uencia de muestreo de espectros solap ados

En la tabla Nº 1 se aprecia las frecuencias de muestreo de algunas aplicaciones

Frecuencia de muestreo Aplicación

32 Audio digital y televisión

44.10 Discos compactos

48 Cintas de audio digital y HDTV

Fig. Nº 7Vitrola a cuerda.

FIG. N°8 Modelo de radio TR-1

FIG. N°10 Walkman

FIG. N° 11 Discman modelo D121

FIG. N° 13 Reproductor MP3

FIG. N° 14 IPOD Clásico

MÓVILES CON MP3

FIG. N° 15 Móvil con MP3

El formato MP3 se convirtió en el estándar utilizado para streaming de audio y

4.3.3 TRANSFORMADA DE FOURIER EN EL MP3

4.4SERIES DE FOURIER Y TRANSFORMADA DE FOURIER PARA

La función ( ) definida por.

Análogamente es el símbolo que se utiliza para indicar la operación inversa

4.4.2Teorema de Existencia de la Transformada de Fourier y propiedades

De la fórmula de Euler se tiene que:

( ) = ℱ[ ( )] es, general, compleja y, se tiene

( )=− ( ) sin , (6)

Así mismo, demostraremos que ( ) y ( ) son funciones par e impar de

) denota el conjugado complejo de

Si ( ) es real, entonces, mediante la identidad

es es una condición necesaria y suficiente para que sea real.

Donde ( ) y ( ) son funciones reales. Entonces de (2), se tiene