Академический Документы
Профессиональный Документы
Культура Документы
IMAGE PROCESSING
LABORATORIUM TELEKOMUNIKASI, RADIO, DAN MICROWAVE
BAB II
MULTIMEDIA SIGNAL PROCESSING
a. PERCEPTUAL CODING AND MP3
I.
Tujuan Percobaan
1. Mempelajari dasar-dasar persepsi pengkodean audio dan intelektual hak
perlindungan dari multimedia.
2. Desain audio digital watermarking sistem dalam waktu dan domain
frekuensi.
3. Menjelajahi audio sintetis: MIDI dan MPEG4 Audio terstruktur.
II.
Teori Dasar
Audio atau suara merupakan gelombang yang mengandung sejumlah
komponen penting (amplitudo, panjang gelombang dan frekuensi) yang dapat
menyebabkan
kekuatan atau daya gelombang sinyal. Tinggi gelombang yang bisa dilihat sebagai
grafik, Gelombang yang lebih tinggi diinterpretasikan sebagai volume yang lebih
tinggi, Suara beramplitudo lebih besar akan terdengar lebih keras. Frekuensi
adalah jumlah dari siklus yang terjadi dalam satu detik. Satuan dari frekuensi
adalah Hertz atau disingkat Hz. Getaran gelombang suara yang cepat membuat
frekuensi semakin tinggi. Misalnya, bila menyanyi dalam pita suara tinggi
memaksa tali suara untuk bergetar secara cepat. Suara dengan frekuensi lebih
besar akan terdengar lebih tinggi.
Gelombang suara adalah gelombang yang dihasilkan dari sebuah benda yang
bergetar. Sebagai contoh, senar gitar yang dipetik, gitar akan bergetar dan
getaran ini merambat di udara, atau air, atau material lainnya. Satu-satunya
tempat dimana suara tak dapat merambat adalah ruangan hampa udara.
Gelombang suara ini memiliki lembah dan bukit, satu buah lembah dan bukit akan
menghasilkan satu siklus atau periode. Siklus ini berlangsung berulang-ulang,
yang membawa pada konsep frekuensi.
WAV adalah format file audio standar Microsoft dan IBM untuk personal
computer(PC),
biasanya
menggunakan
pengkodean
PCM
(Pulse
Code
Modulation). WAV adalah data tidak terkompres sehingga seluruh sampel audio
disimpan semuanya di harddisk. Perangkat lunak yang dapat menciptakan WAV
dari sinyal analog misalnya adalah Windows Sound Recorder. WAV jarang sekali
digunakan di internet karena ukurannya yang relatif besar dengan batasan
maksimal untuk file WAV adalah 2GB.
Secara umum data audio digital dari WAV memiliki karakteristik yang dapat
dinyatakan dengan parameter-parameter berikut:
a. Laju sampel (sampling rate) dalam sampel/detik, misalnya 22050 atau
4100 sampel/detik.
b. Jumlah bit tiap sampel, misalnya 8 atau 16 bit.
c. Jumlah kanal (channel), yaitu 1 untuk mono dan 2 untuk stereo.
Parameter-parameter tersebut menyatakan pengaturan yang digunakan oleh
ADC pada saat data audio direkam. Biasanya laju sampel juga dinyatakan dengan
satuan Hz atau kHz. Sebagai gambaran, data audio digital yang tersimpan dalam
CD audio memiliki karakteristik laju sampel 44100 Hz, 16 bit per sampel, dan 2
kanal (stereo), yang berarti setiap satu detik suara tersusun dari 44100 sampel,
dan setiap sampel tersimpan dalam data sebesar 16-bit atau 2 byte. Laju sampel
selalu dinyatakan untuk setiap satu kanal (channel). Jadi misalkan suatu data
audio digital memiliki 2 kanal (channel) dengan laju sampel 8000 sampel/detik,
maka di dalam setiap detiknya akan terdapat 16000 sampel.
MPEG-1 audio layer III atau yang lebih dikenal dengan MP3, adalah
pengkodean dalam digital audio dan juga merupakan format kompresi audio yang
memiliki sifat menghilangkan. Istilah menghilangkan yang dimaksud adalah
kompresi audio ke dalam format mp3 menghilangkan aspek-aspek yang tidak
signifikan pada pendengaran manusia untuk mengurangi besarnya file audio.
Sejarah MP3 dimulai dari tahun 1991 saat proposal dari Phillips (Belanda),
CCET (Perancis), dan Institut fr Rundfunktechnik (Jerman) memenangkan proyek
untuk DAB (Digital Audio Broadcast). Produk mereka seperti Musicam (lebih
dikenal dengan layer 2) terpilih karena kesederhanaan, ketahanan terhadap
kesalahan, dan perhitungan komputasi yang sederhana untuk melakukan
pengkodean yang menghasilkan keluaran yang memiliki kualitas tinggi. Pada
akhirnya ide dan teknologi yang digunakan dikembangkan menjadi MPEG-1 audio
layer 3. MP3 adalah pengembangan dari teknologi sebelumnya sehingga dengan
ukuran yang lebih kecil dapat menghasilkan kualitas yang setara dengan kualitas
CD.
III.
yang sesuai dengan prinsip di atas dan memberikan parameter untuk diproses
lebih lanjut. Pada bagian ini kami menyelidiki ambang mutlak pendengaran
dan prinsip-prinsip yang menandai simultan.
a. The absolute threshold of hearing
Pada bagian ini kita menggunakan PM_Abs_Thre_Hearing.m. untuk
mengeksplorasi batas absolute pendengaran. Tujuan dari penelitian ini adalah
untuk mengetahui ambang batas volume yang hanya auditable pada
frekuensi tertentu. Dengan kata lain, diberikan nada dengan sama frekuensi,
jika memilih volume sedikit lebih rendah dari batas ini, menjadi tak terdengar.
c. Menghasilkan MP3 file oleh File Save As. pilih Simpan sebagai jenis
sebagaigelombang Audio. Menyesuaikan parameter dalam File atribut
sebagai MPEG Layer 3, 32kbps, 16000Hz, stereo. Nama file baru ini
sebagai wav2mp3.wav.
untuk
downsample.wav
dan
reconstructed_wav.wav.
% function [LogX,volumnY]=PM_Abs_Thre_Hearing
% measure absolute threshold of hearing
%
LogX : vector of x
specific frequency
%
[LogX,volumnY], back
%
close all;
clear all;
SampleRate=40000;
Max_bit=16;
total_time=0.75;
t=0:total_time*SampleRate-1;
bar(k4x,k4y);
axis([1 3 0 16]);
while CaliFlag==1
[x1,y1, butn]=ginput(1);
if butn==3;
else ;
break;
min_4K_amp=y1;
% right click
end;
min_4K_amp=1/power(2,Max_bit-y1);
y4k=min_4K_amp*sin(2*pi*F4k*t/SampleRate);
bar(k4x,y1*k4y);
axis([1 3 0 16]);
figure
StopFlag=0;
startLogX=2;
EndLogX=4; numLogX=11;
min_Volume=-10;max_Volume=40;
volumnY=ones(1,numLogX);
LogX=logspace(startLogX,EndLogX,numLogX);
dividerLogX=logspace(startLogX,EndLogX,numLogX*2-1);
dividerLogX=dividerLogX(2:2:end); dividerLogX=[0 dividerLogX];
semilogx(LogX,volumnY,'-o');
axis([power(10,startLogX) power(10,EndLogX) min_Volume max_Volume]);
title('Stage 2: Measure Absolute Threshold of Hearing');
xlabel('Frequency(Hz)');
ylabel('Related Sound Pressure Level to 4K Hz, rSPL(dB)');
legend('Left Click mouse to adjust the volume. Right click to
Exit');
grid on
min_4K_power=min_4K_amp^2;
while StopFlag==0
[x1,y1, butn]=ginput(1);
if butn==3;
break;
% right click
else
newFindex=find(x1 > dividerLogX );
selectF=newFindex(end);
newF=LogX(selectF);
newAMP=sqrt(min_4K_power*power(10,y1/10));
volumnY(selectF)=y1;
semilogx(LogX,volumnY,'-o');
title('Stage 2: Measure Absolute Threshold of Hearing');
axis([power(10,startLogX) power(10,EndLogX)
min_Volume
max_Volume]);
xlabel('Frequency(Hz)');
ylabel('Related Sound Pressure Level to 4K Hz, rSPL(dB)');
legend('Left Click mouse to adjust the volume. Right click to
Exit');
grid on
y1=newAMP*sin(2*pi*newF*t/SampleRate);
sound(y1,SampleRate)
end
end
40
30
25
20
15
10
-5
-10
2
10
10
Frequency(Hz)
10
% function [LinX,volumnY]=PM_Simu_Masking(ith_CB)
% Measure simultaneous masking
% output
LinX : vector of x
% input
%
specific frequency
%
frequency tone
%
[LogX,volumnY], back
%
close all;
50
450
0
400
700
630
100;
510;
770;
1480;
150
570
840
1600
100
510
770
1480
200;
250
200
300;
350
300
630;
920; 1000
1720;
1850 1720 2000; 2150 2000 2320; 2500 2320 2700; 2900 2700
3150; 3400 3150
3700;
4000
3700
4400;
4800 4400 5300; 5800 5300 6400; 7000 6400 7700; 8500 7700
9500;10500 9500 12000; 13500 12000 15500];
numX=7;
NumCB=size(CB_FB,1);
if (ith_CB > NumCB)|(ith_CB < 1)
% error detection
% initilized parameters.
SampleRate=40000;
Max_bit=16;
total_time=0.75;
t=0:total_time*SampleRate-1;
min_4K_amp=1;
bar(k4x,k4y);
axis([1 3 0 16]);
while CaliFlag==1
[x1,y1, butn]=ginput(1);
if butn==3;
else ;
break;
min_4K_amp=y1;
% right click
end;
min_4K_amp=1/power(2,Max_bit-y1);
y4k=min_4K_amp*sin(2*pi*F4k*t/SampleRate);
bar(k4x,y1*k4y);
axis([1 3 0 16]);
CenterX=CB_FB(ith_CB,1);startX=CB_FB(ith_CB,2);
EndX=CB_FB(ith_CB,3);
centerFreqIndex=ceil(numX/2);
passband=EndX-startX; plot_range=[CenterX-passband
CenterX+passband];
max_mid_Freq_AMP=0.45;
mid_Freq_DB=10*log10((max_mid_Freq_AMP^2)/min_4K_power);
min_Volume=-10;
max_Volume=10*ceil(mid_Freq_DB/10)+10;
volumnY=ones(1,numX); volumnY(centerFreqIndex)=mid_Freq_DB;
LinX=linspace(startX,EndX,numX);
dividerLinX=linspace(startX,EndX,numX*2-1);
dividerLinX=dividerLinX(2:2:end); dividerLinX=[0 dividerLinX];
plot(LinX,volumnY,'-o');
axis([plot_range(1) plot_range(2) min_Volume max_Volume]);
title('Stage 2: Measure simultaneous masking');
xlabel('Frequency(Hz)');
ylabel('Related Sound Pressure Level to 4K Hz, rSPL(dB)');
legend('Left Click mouse to adjust the volume. Right click to
Exit');
grid on
% centeral tone
yc=max_mid_Freq_AMP*sin(2*pi*CenterX*t/SampleRate);
while StopFlag==0
[x1,y1, butn]=ginput(1);
if butn==3;
break;
% right click
else
newFindex=find(x1 > dividerLinX );
selectF=newFindex(end);
if selectF==centerFreqIndex
% centeral tone
sound(yc,SampleRate);
else
newF=LinX(selectF);
newAMP=sqrt(min_4K_power*power(10,y1/10));
volumnY(selectF)=y1;
plot(LinX,volumnY,'-o');
axis([plot_range(1) plot_range(2) min_Volume max_Volume]);
title('Stage 2: Measure simultaneous masking');
xlabel('Frequency(Hz)');
ylabel('Related Sound Pressure Level to 4K Hz, rSPL(dB)');
legend('Left Click mouse to adjust the volume. Right click to
Exit');
grid on
y1=newAMP*sin(2*pi*newF*t/SampleRate);
% generate
neighboring tone
ymix=y1+yc;
sound(ymix,SampleRate);
end
end
end
b. Downsampling
e. Compare Spectrum
kualitas audio yang dihasilkan dari format lebih jernih dan lebih baik
dibanding mp3. WAV adalah format file audio standar Microsoft dan IBM
untuk personal computer (PC), biasanya menggunakan pengkodean PCM
(Pulse Code Modulation). Pada WAV, data tidak terkompres sehingga
seluruh sampel audio tetap ada.
b. Downsampling
Pada percobaan downsampling, diperoleh size 11 MB. Hal ini dikarenakan
downsampling adalah teknik untuk menurunkan sample rate audionya.
c. Generate MP3
Pada langkah ini, file yang berdurasi 10 detik dengan format WAV
berukuran 34.8 MB dikonversi ke format MP3 dan diperoleh size 744 KB.
Hal ini dikarenakan format MP3 membuat audio-audio yang tidak
dibutuhkan oleh telinga, sehingga size-nya berkurang.
d. Rekonstruksi
Pada langkah ini, hasil yang diperoleh tidak jauh beda dengan langkah
sebelumya.
e. Compare Spectrum
Pada langkah ini, digunakan Matlab untuk dapat membandingkan dua dile
audio. Dari hasil matlab diperoleh perbedaannya sangat sedikit. Hal ini
dikarenakan size dari file yang direkonstruksi
dan downsampling
VII.Kesimpulan
1. Bunyi dengan frekuensi 20-20.000 Hz hanya dapat didengar ole telinga
manusia
2. Format audio file WAV atau waveform audio merupakan format audio yang
yang tidak terkompres sehingga ukurannya besar sekali. Sedangkan format
MP3 merupakan format audio yang umum digunakan karena size-nya cukup
rendah karena audio dikompresi atau audio yang tidak dibutuhkan oleh
telinga dibuang.
3. Downsampling merupakan teknik untuk menurunkan sample rate audio-nya.
DAFTAR PUSTAKA
http://core.ac.uk/download/pdf/11719325.pdf
http://lecturer.polindra.ac.id/~munengsih/wp-content/uploads/2012/04/3-Audiodan-Video1.pdf
http://repository.usu.ac.id/bitstream/123456789/19785/3/Chapter%20II.pdf