Final

Bo co DSP 2 Project Speech Enhancement
I. L thuyt :
1. Gii thiu :
Trong cuc sng, ting ni ng mt vai tr rt quan trng i vi con ngi.
Cng vi ting ni l s xut hin ca rt nhiu cc loi dch v thoi nh ngy
nay.Tuy nhin vic bo ton c tn hiu ting ni trn cc dch v ny l iu v
cng kh khn do s mt mt v suy gim tn hiu v nht l nh hng ca nhiu
s lm cho tn hiu ting ni khng cn nh ban u. V l do m cc thut
ton v Speech Enhancement ra i. Tuy khng th bo ton c y nguyn tn
hiu ban u nhng khi s dng cc thut ton ny ta c th tng cng c cht
lng ting ni v gim bt nhiu nn tn hiu sau khi x l n ngi nghe
vn mang y ni dung thng tin v khng gy kh chu bi nhiu i vi
ngi nghe. V vy, Speech Enhancement ng mt vai tr rt quan trng trong
lnh vc thoi.
y cng l ti ca Final Project - DSP 2. Do nhm bt tay vo tm
hiu v Speech Enhancement, nghin cu cc thut ton ca n thc hin v
nh gi hiu qu ca cc thut ton trong mi trng thc t .
2. Thut ton Spectral Subtraction :
2.1 Gii thiu chung :
Spectral subtraction l thut ton da trn mt nguyn tc c bn, tha nhn
s c mt ca nhiu, n c th t c mc ch c lng ph ca ting ni
sch bng cch tr i ph ca nhiu vi ph ca ting ni b nhiu. Ph ca
nhiu c th c c lng, cp nht trong nhiu chu k khi khng c mt ca
tn hiu. S tha nhn ch c thc hin i vi nhiu khng i hoc c tc
x l bin i chm, v khi ph ca nhiu s khng thay i ng k gia
cc khong thi gian cp nht. Vic tng cng tn hiu t c bng cch tnh
IDFT (bin i Fourier ri rc ngc) ca ph tn hiu c c lng c s
Nhm : 05 Trang 1
dng pha ca tn hiu c nhiu. Thut ton ny l mt php tnh c lng n
gin v n ch gm bin i DFT thun v DFT ngc.
Qu trnh x l tn hiu n gin nh vy nn khi qu trnh x l khng c
thc hin mt cch cn thn th ting ni ca chng ta s b mo. Nu nh vic ly
hiu qu ln th c th loi b i mt phn thng tin ca ting ni, cn nu vic
thc hin ly hiu nh th nhiu s vn cn c gi li trong tn hiu.

S khi cho thut ton SS
2.2 Spectral subtraction i vi ph bin :
Gi thit rng y[k] l tn hiu vo b nhiu, n bng tng ca tn hiu sch
s[k] v tn hiu nhiu n[k]:
y[k] = x[k] + n[k]
Thc hin bin i Fourier ri rc c 2 v, ta c
Y(
) = X(
) + N(
)
Chng ta c th biu din Y(
) di dng phc nh sau:

) (
| ) ( | ) (

y
j
e Y Y
Khi |Y(
)| l bin ph, v
) (
y l pha ca tn hiu b nhiu.
Ph ca tn hiu nhiu N(
) c th c biu din dng bin v pha:

) (
| ) ( | ) (

d
j
e N N
Bin ph ca nhiu |N(
)| khng xc nh c, nhng c th thay th

bng gi tr trung bnh ca n c tnh trong khi khng c ting ni, v pha ca
Nhm : 05 Trang 2
s(k)
( k ) Y
~
(k) s
~
N(k)
Y(k)
n(t)
s(t) y(t) y(k)
Framing FFT
IFF
T
Overlap/Add
Gain
Function
Noise
estimatio
n
tn hiu nhiu c th thay th bng pha ca tn hiu b nhiu
) (
y , vic lm ny
khng nh hng n tnh d nghe ca ting ni, c th nh hng n cht lng
ca ting ni l lm thay i pha ca ting ni nhng cng ch vi .
Khi chng ta c th c lng c ph ca tn hiu sch:
) (
|] ) ( | | ) ( [| ) (

y
j
e N Y X

y | ) ( N
| l bin ph c lng ca nhiu c tnh trong khi khng c

ting ni hot ng. K hiu
" "
ch rng gi tr l gi tr c tnh gn ng.
Tn hiu ting ni c tng cng c th t c bng cch rt n gin l bin
i IDFT ca
) (
X
.
Cn ch rng bin ph ca tn hiu c tng cng l
|) ) ( | | ) ( | ( | ) ( | N Y X
, c th b m do s sai st trong vic c lng ph ca
nhiu. Tuy nhin, bin ca ph th khng th m, nn chng cn phi m bo
rng khi thc tr hai ph th ph ca tn hiu tng cng |X(
)| lun lun khng

m. Gii php c a ra khc phc iu ny l chnh lu bn sng hiu ca
ph, nu thnh phn ph no m m th chng ta s gn n bng 0:
Phng php
x l bng chnh lu bn sng l mt trong nhng cch m bo cho |X(
)|
khng b m. Tuy nhin khi ting ni cng vi nhiu b hn ( )
j
e

th c th dn
n vic loi b khng ng thng tin ting ni do c th gim r.
2.3 Spectral subtraction i vi ph cng sut
Thut ton Spectral subtraction i vi ph bin c th c m rng sang
min ph cng sut. V trong mt vi trng hp, n c th lm vic tt vi ph
cng sut hn l vi ph bin . Ly ph cng sut ca tn hiu b nhiu trong
mt khong ngn, chng ta bnh phng |Y(
)|, ta c:
Nhm : 05 Trang 3
'
>
, 0
| ) ( | | ) ( | , | ) ( | ) (
) (
^ ^

N Y N Y
X
{ } ) ( ) ( Re . 2 ) ( ) (
) ( ) ( ) ( . ) ( ) ( ) ( ) (
*
2 2
* *
2 2 2

N X N X
N X N X N X Y
+ +
+ + +
| ) ( N |
2
,
) ( ). (
*
N X

v
) ( ). ( N X

khng th tnh c mt cch trc tip v
xp x bng E{|
) ( N
|
2
}, E{ ) ( ). (
*
N X } v E{ ) ( ). ( N X

}, khi E[ ] l ton
t k vng. Bnh thng th E{|
) ( N
|
2
} c c lng khi khng c ting ni
hot ng v c biu th l |
) (
N
|
2
. Nu chng ta tha nhn n[k] = 0 v khng
c mt s tng quan no vi tn hiu sch x[k], th E{ ) ( ). (
*
N X } v E{
) ( ). ( N X

} xem l 0. Khi ph cng sut ca tn hiu sch c th tnh c
nh sau
2
^
2 2
^
| ) ( | | ) ( | | ) ( | N Y X
Cng thc trn biu din thut ton tr ph cng sut. Nh cng thc trn, th
ph cng sut c c lng
2
| ) ( |
X
khng c m bo lun l mt s
dng, nhng c th s dng phng php chnh lu bn sng nh trnh by
trn. Tn hiu c tng cng s thu c bng cch tnh IDFT ca
| ) ( |
X
(bng
cch ly cn bc hai ca
| ) ( |
X
2
), c s dng pha ca tn hiu ting ni b nhiu.
Cng thc (1) c th c vit theo dng sau:
2 2 2
^
| ) ( | ) ( | ) ( | Y H X

Khi :
2
2
^
| ) ( |
| ) ( |
1 ) (
Y
N
H

Trong l thuyt h thng tuyn tnh, H(
) l hm truyn t ca h thng.
Trong l thuyt ca Speech enhancement, chng ta xem H(
) l hm li hay
hm nn. V H(
) l mt s thc v lun lun dng, v c gi tr nm trong

phm v
1 ) ( 0 H
. Nu n c gi tr m l do c sai st trong qu trnh c
lng ph ca nhiu. H(
) c gi l hm nn l v n cho ta bit t s gia ph

cng sut ca tn hiu c tng cng vi ph cng sut ca tn hiu b nhiu.
Nhm : 05 Trang 4
Hnh dng ca hm nn l mt c trng duy nht ca mi thut ton Speech
enhancement.
Chnh v vy m chng ta thng so snh cc thut ton bng cch so snh
cc p ng ca hm nn ca chng. H s H(
) c gi tr thc nn bin i
IDFT l h[n] i xng vi nhau qua im 0 v khng nhn qu. Trong min thi
gian th h[n] c xem l mt b lc khng nhn qu. Nn s c mt phng php
c xut hiu chnh hm H(
) p ng ca n tr thnh b lc nhn
qu trong min thi gian.
Trng hp chung th thut ton Spectral subtraction c th c biu din:
p p p
N Y X | ) ( | | ) ( | | ) ( |
^ ^

Trong p l s m cng sut, vi p = 1 l l phng php tr ph bin
in hnh, p = 2 l phng php tr ph cng sut.
3 . Thut ton Wiener Filtering :
3.1 Gii thiu chung
Thut ton Spectral Subtraction da ch yu vo trc gic v kinh
nghim.Chnh xc hn thut ton ny c pht trin da trn mt nhiu c tht
c cng vo v tn hiu sch c c lng mt cch n gin bng cch tr
i ph ca nhiu t ph ca tnh hiu ting ni c nhiu. Vi cch lm ny tn hiu
ting ni sch khng th c c bng cch ti u nht. khc phc nhc im
ny ta s dng thut ton Wiener Filtering (WF).
WF l thut ton c s dng rng ri trong nng cao cht lng ting ni.
Ngun gc c bn ca thut ton WF l to ra tn hiu ting ni sch bng cch
nn nhiu. c lng c thc hin bng cch h thp sai s bnh phng trung
bnh (Mean Square Error) gia tn hiu mong mun v tn hiu c lng.
3.2Nguyn l c bn ca Wiener Filtering :
Gi thit rng y[k] l tn hiu vo b nhiu, n l tng ca tn hiu sch v tn
hiu nhiu n[k]:
y[k]=x[k]+n[k] (1)
Nhm : 05 Trang 5
Thc hin bin i Fourier ri rc c 2 v,ta c
) ( ) ( ) ( N X Y +
(2)
Chng ta c th biu din Y(
) di dng phc nh sau:

) (
| ) ( | ) (

y
j
e Y Y (3)
Khi |Y(
)| l bin ph, v
) (
y l pha ca tn hiu b nhiu.
Ph ca tn hiu nhiu N(
) c th c biu din dng bin v pha:

) (
| ) ( | ) (

d
j
e N N (4)
Bin ph ca nhiu |N(
)| khng xc nh c, nhng c th thay th bng

gi tr trung bnh ca n c tnh trong khi khng c ting ni(ting ni b dng),
v pha ca tn hiu nhiu c th thay th bng pha ca tn hiu b nhiu
) (
y ,
vic lm ny khng nh hng n tnh d nghe ca ting ni, c th nh hng
n cht lng ca ting ni l lm thay i pha ca ting ni nhng cng ch vi
.
Ta c th c lng c bin ca ph tn hiu sch
) (
X
t Y(
) bng mt
hm phi tuyn c xc nh nh sau :
) ( / ) ( ) ( Y X G

(5)
) ( G
c th c p dng theo Wiener Filtering :
} ) ( { } ) ( {
} ) ( {
) (
2 2
2

N E S E
S E
G
+
(6)
Trong
) (
s
P
v
) (
d
P
l ph cng sut ca tin hiu sch.
t Priori SNR v Posteriori SNR nh sau :
} ) ( {
} ) ( {
2
2
N E
S E
SNR
pri

(7)
} ) ( {
} ) ( {
2
2
N E
Y E
SNR
post

(8)
Mt kh khn trong cc thut ton nng cao cht lng ting ni l ta khng c tn
hiu trc tn hiu sch s[n] nn ta khng th bit ph ca n. Do ta khng th
tnh c pri
SNR
m trong cc h thng nng cao cht lng ging ni th pri
SNR

l tham s rt cn thit c lng tn hiu sch.Trong cc h thng nng cao
Nhm : 05 Trang 6
cht lng ging ni c th c lng c pri
SNR
v post
SNR
bng cch cho cc
thng s thch hp vo cc phng trnh sau :
2
1
) ( ) 1 ( ) ( ) (
t
t
d
t
d N P P +

(9)
) (
} ) ( {
2
t
d
post
P
Y E
SNR

(10)
) (
) (
1 ) ( ) 1 ( ) (
2
1
^

d
t
t
post
t
pri
P
S
SNR P SNR

+
1
]
1

(11)
Trong P[.] l hm chnh lu bn sng c dng nh sau:
'
>
, 0
0 ,
) (
X X
X P
(12)
V v ch s
t
[.]
tn hiu ti khong thi gian ang x l.
Trong phng trnh nu cho h s
ta c th c lng c pri
SNR
bng
post
SNR
. Trong thc t h s
=0.98 rt tt cho cc tn hiu c SNR<4dB.

T phng trnh (5) v (6) c
) ( G
theo WF nh sau:
pri
pri
SNR
SNR
G
+
1
) (
(13)
S khi ca thut ton Wiener Filtering:
S khi ca thut ton Wiener Filtering.
Nhm : 05 Trang 7
Tn hiu
b nhiu
FFT
|.|2
c lng, cp
nht nhiu
Pha ca
tn hiu
|.|
1/2
IFFT
Tn hiu sau khi
tng cng
) ( Y
Priori
SNR
Hm x l
gim
nhiuWF
p r i
S N R
p
N | ) ( |
^

4. Phn tich tin hiu thanh cac frame (Framing hay Segmentation) :
V tn hiu cn x l l tn hiu lin tc, nn khi thc hin FFT tn hiu trc tip
t min thi gian m khng thng qua mt qu trnh tin x l no trc th tn
hiu sau khi c bin i FFT s bin i nhanh, vic thc hin cc thut ton x
l trit nhiu trong tn hiu s rt kh khn v khi tn hiu c xem l ng. Do
vy, tn hiu cn phi c phn tch thnh khung (frame) lin tc trong min thi
gian trc khi chuyn sang min tn s bng bin i FFT. Trong tng frame, tn
hiu s bin i chm v c xem l tnh.
thc hin vic phn tch tn hiu thnh cc frame, cn s dng cc loi ca s
thch hp nh : Rectanger, Triangle, Hamming Trn thc t, s dng ca s
Hamming (v gim thiu c side-lope v hin tng Gibbs) s mang li hiu sut
ci thin thoi cao hn cc ca s khc.
5. Overlap v Adding :
Sau khi phn tch tn hiu thnh cc frame lin tc trong min thi gian
bng ca s Hamming, nu cc frame ny lin tc vi nhau v khng theo mt
iu kin no c th khi thc hin bin i FFT th v tnh chng ta lm suy
gim tn hiu do Hamming l ca s phi tuyn.
Nn khi thc hin phn tch tn hiu thnh cc frame th yu cu t ra l
cc frame phi sp xp chng ln nhau, gi l overlap. Vic xp chng cc
frame vi nhau s c thc hin theo mt t l chng lp thch hp, thng
thng l 40% hoc 50%.
Nhm : 05 Trang 8
Sau khi cc frame tn hiu c x l trit nhiu trong min tn s, cc
frame ny c lin kt li nhau bng phng php thch hp vi phng php
phn tch tn hiu thnh cc frame u vo gi l adding.
Tp hp cc mu tn hiu trong cng mt frame sau khi c phn tch
u vo gi l mt segment. Vi cch thc hin phn tch v lin kt cc frame
bng phng php overlap v adding th tn hiu ca chng ta thu c sau khi x
l trit nhiu s khng b mo dng v s khng xut hin hin tng gi nhiu.
6. c lng v cp nht nhiu :
Phng thc c lng nhiu c th nh hng ln n cht lng ca tn
hiu sau khi c tng cng. Nu nhiu c c lng qu nh th nhiu s vn
cn trong tn hiu v n s c nghe thy, cn nu nh nhiu c c lng
Nhm : 05 Trang 9
qu ln th ting ni s b mo, v lm s lm tnh d nghe ca ting ni b nh
hng. Cch n gin nht c lng v cp nht ph ca nhiu trong on tn
hiu khng c mt ca ting ni s dng thut ton thm d hot ng ca ting
ni (voice activity detection - VAD). Tuy nhin phng php ch tho mn i
vi nhiu khng thay i(nhiu trng), n s khng hiu qu trong cc mi trng
thc t (v d nh nh hng), nhng ni c tnh ph ca nhiu thay i lin
tc. Trong mc ny chng ta s cp n thut ton c lng nhiu thay i
lin tc v thc hin trong lc ting ni hot ng, thut ton ny s ph hp mi
trng c nhiu thay i cao.
7. Voice activity detection (VAD) :
Qu trnh x l phn bit khi no c ting ni hot ng, khi no khng c
ting ni (im lng) c gi l s thm d hot ng ca ting ni Voice activity
detection (VAD). Thut ton VAD c tn hiu ra dng nh phn quyt nh trn
mt nn tng frame-by-frame, khi frame c th xp x 20-40 ms. Mt on
ting ni c cha ting ni hot ng th VAD = 1, cn nu ting ni khng hot
ng hay chnh l nhiu th VAD = 0. Phn ln cc thut ton VAD u phi
i mt vi vn l iu kin SNR thp, c bit khi nhiu b thay i. Mt thut
ton VAD c chnh xc trong mi trng thay i khng th trong cc ng
dng ca Speech enhancement, nhng vic c lng nhiu mt cch chnh xc l
rt cn thit ti mi thi im khi ting ni hot ng .
Nhiu s c c lng lc ban u bng cch ly trung bnh bin ph
ca tn hiu b nhiu

1
0
) (
1
) (
M
i
i i
Y
M
N
Sau , s dng phng php VAD nhn bit cc frame tip theo, frame
no l frame nhiu v s cp nht nhiu cho cc frame tip theo. c th nhn
bit c frame no l nhiu th chng ta thc hin so snh bin ph ca nhiu
c c lng vi bin ph ca tn hiu b nhiu .
Nhm : 05 Trang 10
* Kt lun :
Ni dung ca phn ny gip chng ta hiu nguyn l chung ca thut ton
Spectral Subtraction v Wiener Filtering. hai thut ton c th thc hin
c th cn phi phn tch tn hiu thnh cc frame v cc frame phi xp chng
ln nhau, v sau khi cc frame c x l trong min tn s v chuyn i v li
min thi gian th cc frame phi c lin kt li vi nhau theo ng phng
php tng ng vi phng php phn tch tn hiu u vo, qu trnh gi l
overlap v adding. Chnh iu s lm cho tn hiu ca chng ta sau khi x l
trit nhiu s khng b mo, m bo cht lng ca ting ni. Ni dung ca
chng cng trnh by vn c lng nhiu, y l ci chnh m speech
enhancement cn gii quyt, n quyt nh tnh hiu qu ca thut ton v cht
lng ca ting ni sau khi x l trit nhiu.
8. Thut ton :
8.1. Tr ph:
Nhm : 05 Trang 11
Nhm : 05 Trang 12
Tnh li mc nhiu N
End
I=I+1;nhp frame tip theo
Begin
Phn chia Frame tn hiu u
vo
Tinh cong suat nhieu trung binh N ban
u
I=0;Nhp frame u tin
VAD
X(:,i)=Beta*Y(:,i)
D=YS(:,i)-N; % Thc hin tr ph
X(:,i)=max(D,0);
Y=bin i FFT cho cc frame
X
=
X =
=
X
=
S
SpeechFlag==0?
S
I<number of frame
Thc hin IFFT v ni cc
frame

+ Chn cc thng s lin quan n thut ton : wnd, IS, W ,SP.
+ Tnh s khung nhiu ban u ( NIS ).
+ Chn Gamma :
- Bng 1 nu l tr ph bin .
- Bng 2 nu l tr ph cng sut.
+ Thc hin chia tn hiu thnh cc khung , bin i FFT cho tin hiu.
+ Tnh trung bnh cc khung nhiu ban u khi to nhiu d ln nht .
+ Chn h s nhiu nn Beta = 0.05.
+ Tnh trung bnh bin tn hiu
+ Kim tra ln lt cc khung :
- Nu khung l nhiu th cp nht nhiu , nn nhiu
- Nu khung l tn hiu ting ni th thc hin tr ph
- Chnh lu bn sng
+ Khi phc li tn hiu c x l .
8.2. Wiener_Scalart :
Nhm : 05 Trang 13
Nhm : 05 Trang 14
Tnh li mc nhiu trung bnh N
End
I=I+1;nhp frame tip theo
Begin
Phn chia Frame tn hiu u
vo
Tinh cong suat nhieu trung bnh N ban
u
SpeechFlag==0?
I=0;Nhp frame u tin
VAD
Tnh Priori SNR
Y=bin i FFT cho cc frame
Tnh Gain Function G
X(:,i)=G.*Y(:,i);tin hiu sch
S
X
= X
=
I<number of frame
Thc hin IFFT v ni cc
frame X
+ Chn cc thng s lin quan n thut ton : wnd, IS, W ,SP.
+ Tnh s khung nhiu ban u (NIS).
+ Chia tn hiu thnh cc khung, thc hin bin i FFT.
+ Tnh trung bnh cng sut cc khung nhiu ban u v phng sai ph cng sut
nhiu ban u.
+ Chn h s lm nhn Alpha = 0.9.
+ Khi to hm nn ( Gain function ) : G.
+ Kim tra ln lt tng khung :
- Nu s khung < NIS th cho speechflag = 0.
- Nu s khung > NIS th gi hm vad kim tra.
- Tin hnh cp nhp nhiu nu speechflag = 0.
- Tnh G v tn hiu kh nhiu.
+ Khi phc tn hiu c x l .
II. Thc hnh:
1. Code Spectral Subtraction :
function [output,Speech]=SSBoll79(signal,fs,IS)
% OUTPUT=SSBOLL79(S,FS,IS)
% Spectral Subtraction based on Boll 79. Amplitude spectral subtraction
% Includes Magnitude Averaging and Residual noise Reduction
% S is the noisy signal, FS is the sampling frequency and IS is the initial
% silence (noise only) length in seconds (default value is .25 sec)
%
% April-05
Nhm : 05 Trang 15
% Esfandiar Zavarehei
if (nargin<3 | isstruct(IS)) % Bien nargin la de xac dinh so gia
tri dau vao.
IS =.25; % Khoang thoi gian ban dau de uoc luong nhieu.
end
W = fix(.025*fs); %Window length is 25 ms, % di ca s, hay di 1 frame
nfft = W;
SP = .5; %Shift percentage is 40% (10ms) %Overlap-Add method works good with this
value(.4)
wnd = hamming(W);
% wnd=rectwin(W);
NIS = fix((IS*fs-W)/(SP*W) +1);%number of initial silence segments
Gamma = 1;%Magnitude Power (1 for magnitude spectral subtraction 2 for power
spectrum subtraction)
disp(' Segmentation');
y = segment(signal,W,SP,wnd);
disp(' FFT');
Y = fft(y,nfft);
Yphase = angle(Y(1:fix(end/2)+1,:)); %Noisy Speech Phase
Y = abs(Y(1:fix(end/2)+1,:)).^Gamma;%Specrogram
numberOfFrames=size(Y,2); % xc nh tng s frame trong 1 tn hiu %S ct ca ma
trn Y chnh l s frame
FreqResol = size(Y,1); %S hng ca ma trn Y chnh l tn s
%size(Y),
disp(' Noise Initialization');
n = mean(Y(:,1:NIS)')'; %initial Noise Power Spectrum mean
NoiseCounter = 0;
NoiseLength = 9;%This is a smoothing factor for the noise updating
NRM = zeros(size(N));% Noise Residual Maximum (Initialization)
Beta =.05; % H s suy gim tn hiu khi c cho l nhiu. disp(' Magnitude
Averaged');
Nhm : 05 Trang 16
YS = Y; %Y Magnitude Averaged
for i = 2:(numberOfFrames-1)
YS(:,i)=(Y(:,i-1)+Y(:,i)+Y(:,i+1))/3;
end
disp(' Spectral Subtraction');
X = zeros(FreqResol,numberOfFrames);
for i = 1:numberOfFrames
[NoiseFlag, SpeechFlag, NoiseCounter,
Dist]=vad(Y(:,i).^(1/Gamma),N.^(1/Gamma),NoiseCounter); %Magnitude Spectrum
Distance VAD: l hm xc nh xem frame l frame nhiu
hay frame c tn hiu ting ni.
Speech(i,1) = SpeechFlag;
if SpeechFlag = = 0
N = (NoiseLength*N+Y(:,i))/(NoiseLength+1); %Update and smooth noise
NRM = max(NRM,YS(:,i)-N);%Update Maximum Noise Residue
X(:,i)=Beta*Y(:,i);
else
D=YS(:,i)-N; % Specral Subtraction
if i>1 && i<numberOfFrames %Residual Noise Reduction
for j=1:length(D)
if D(j)<NRM(j)
D(j)=min([D(j) YS(j,i-1)-N(j) YS(j,i+1)-N(j)]);
end
end
end
X(:,i) = max(D,0);
end
end
disp(' Synthesis');
output = OverlapAdd2(X.^(1/Gamma),YPhase,W,SP*W); % Ni cc frame sau khi
a trit nhiu, s dng hm OverlapAdd2 c nh ngha bn di.
Nhm : 05 Trang 17
function ReconstructedSignal=OverlapAdd2(XNEW,yphase,windowLen,ShiftLen);
%Y=OverlapAdd(X,A,W,S);
%Y is the signal reconstructed signal from its spectrogram. X is a matrix
%with each column being the fft of a segment of signal. A is the phase
%angle of the spectrum which should have the same dimension as X. if it is
%not given the phase angle of X is used which in the case of real values is
%zero (assuming that its the magnitude). W is the window length of time
%domain segments if not given the length is assumed to be twice as long as
%fft window length. S is the shift length of the segmentation process ( for
%example in the case of non overlapping signals it is equal to W and in the
%case of %50 overlap is equal to W/2. if not givven W/2 is used. Y is the
%reconstructed time domain signal.
%Sep-04
%Esfandiar Zavarehei
if nargin<2
yphase = angle(XNEW);
end
if nargin<3
windowLen = size(XNEW,1)*2;
end
if nargin<4
ShiftLen = windowLen/2;
end
if fix(ShiftLen) ~ = ShiftLen
ShiftLen = fix(ShiftLen);
disp('The shift length have to be an integer as it is the number of samples.')
disp(['shift length is fixed to ' num2str(ShiftLen)])
end
[FreqRes FrameNum] = size(XNEW);
Spec = XNEW.*exp(j*yphase);
Nhm : 05 Trang 18
if mod(windowLen,2) %if FreqResol is odd
Spec = [Spec;flipud(conj(Spec(2:end,:)))];
else
Spec = [Spec;flipud(conj(Spec(2:end-1,:)))];
end
sig = zeros((FrameNum-1)*ShiftLen+windowLen,1);
weight=sig;
for i=1:FrameNum
start=(i-1)*ShiftLen+1;
spec=Spec(:,i);
sig(start:start+windowLen-1)=sig(start:start+windowLen-
1)+real(ifft(spec,windowLen));
end
ReconstructedSignal=sig;

function [NoiseFlag, SpeechFlag, NoiseCounter,
Dist]=vad(signal,noise,NoiseCounter,NoiseMargin,Hangover)
%[NOISEFLAG, SPEECHFLAG, NOISECOUNTER,
DIST]=vad(SIGNAL,NOISE,NOISECOUNTER,NOISEMARGIN,HANGOVER)
%Spectral Distance Voice Activity Detector
%SIGNAL is the the current frames magnitude spectrum which is to labeld as
%noise or speech, NOISE is noise magnitude spectrum template (estimation),
%NOISECOUNTER is the number of imediate previous noise frames, NOISEMARGIN
%(default 3)is the spectral distance threshold. HANGOVER ( default 8 )is
%the number of noise segments after which the SPEECHFLAG is reset (goes to
%zero). NOISEFLAG is set to one if the the segment is labeld as noise
%NOISECOUNTER returns the number of previous noise segments, this value is
%reset (to zero) whenever a speech segment is detected. DIST is the
%spectral distance.
%Saeed Vaseghi
%edited by Esfandiar Zavarehei
Nhm : 05 Trang 19
%Sep-04
if nargin<4
NoiseMargin=3; % l ngng nhn bit nhiu trong VAD trong bi ny l 3dB
end
if nargin<5
Hangover=8; % s frame lin tip c t s tn hiu/nhiu di NoiseMargin nhn
bit nhiu
end
if nargin<3
NoiseCounter=0;
end
FreqResol=length(signal);
SpectralDist= 20*(log10(signal)-log10(noise));
SpectralDist(find(SpectralDist<0))=0;

Dist=mean(SpectralDist);
if (Dist < NoiseMargin)
NoiseFlag=1;
NoiseCounter=NoiseCounter+1;
else
NoiseFlag=0;
NoiseCounter=0;
end

% Detect noise only periods and attenuate the signal
if (NoiseCounter > Hangover)
SpeechFlag=0;
else
SpeechFlag=1;
end

Nhm : 05 Trang 20
function Seg=segment(signal,W,SP,Window)
% SEGMENT chops a signal to overlapping windowed segments
% A= SEGMENT(X,W,SP,WIN) returns a matrix which its columns are segmented
% and windowed frames of the input one dimentional signal, X. W is the
% number of samples per window, default value W=256. SP is the shift
% percentage, default value SP=0.4. WIN is the window that is multiplied by
% each segment and its length should be W. the default window is hamming
% window.
% 06-Sep-04
% Esfandiar Zavarehei
if nargin<3
SP=.4;
end
if nargin<2
W=256;
end
if nargin<4
Window=hamming(W);%256*1
end
Window=Window(:); %make it a column vector

L=length(signal);
SP=fix(W.*SP);%102
N=fix((L-W)/SP +1); %number of segments 219

Index = (repmat(1:W,N,1)+repmat((0:(N-1))'*SP,1,W))';%256*219
Hw = repmat(Window,1,N);
Seg = signal(Index).*hw;
2. Code Wiener Filtering :
function output=WienerScalart96(signal,fs,IS)
Nhm : 05 Trang 21
% output=WIENERSCALART96(signal,fs,IS)
% Wiener filter based on tracking a priori SNR usingDecision-Directed
% method, proposed by Scalart et al 96. In this method it is assumed that
% SNRpost=SNRprior +1. based on this the Wiener Filter can be adapted to a
% model like Ephraims model in which we have a gain function which is a
% function of a priori SNR and a priori SNR is being tracked using Decision
% Directed method.
% Author: Esfandiar Zavarehei
% Created: MAR-05
if (nargin<3 | isstruct(IS))
IS=.25; %Initial Silence or Noise Only part in seconds
end
W=fix(.025*fs); %Window length is 25 ms
SP=.5; %Shift percentage is 40% (10ms) %Overlap-Add method works good with this
value(.4)
wnd=hamming(W);
NIS=fix((IS*fs-W)/(SP*W) +1);%number of initial silence segments
y=segment(signal,W,SP,wnd); % This function chops the signal into frames
Y=fft(y);
YPhase=angle(Y(1:fix(end/2)+1,:)); %Noisy Speech Phase
Y=abs(Y(1:fix(end/2)+1,:));%Specrogram
numberOfFrames=size(Y,2);
FreqResol=size(Y,1);
N=mean(Y(:,1:NIS)')'; %initial Noise Power Spectrum mean
LambdaD=mean((Y(:,1:NIS)').^2)';%initial Noise Power Spectrum variance
alpha=0.99; %used in smoothing xi (For Deciesion Directed method for estimation of A
Priori SNR)
NoiseCounter=0;
NoiseLength=9;%This is a smoothing factor for the noise updating
G=ones(size(N));%Initial Gain used in calculation of the new xi
Gamma=G;
Nhm : 05 Trang 22
X=zeros(size(Y)); % Initialize X (memory allocation)
h=waitbar(0,'Wait...');
for i=1:numberOfFrames
%%%%%%%%%%%%%%%%VAD and Noise Estimation START
if i<=NIS % If initial silence ignore VAD
SpeechFlag=0;
NoiseCounter=9;
else % Else Do VAD
[NoiseFlag, SpeechFlag, NoiseCounter, Dist]=vad(Y(:,i),N,NoiseCounter);
%Magnitude Spectrum Distance VAD
end
if SpeechFlag==0 % If not Speech Update Noise Parameters
N=(NoiseLength*N+Y(:,i))/(NoiseLength+1); %Update and smooth noise mean
LambdaD=(NoiseLength*LambdaD+(Y(:,i).^2))./(1+NoiseLength); %Update and
smooth noise variance
end
%%%%%%%%%%%%%%%%%%%VAD and Noise Estimation END

gammaNew=(Y(:,i).^2)./LambdaD; %A postiriori SNR
xi=alpha*(G.^2).*Gamma+(1-alpha).*max(gammaNew-1,0); %Decision Directed
Method for A Priori SNR
Gamma=gammaNew;
G=(xi./(xi+1));
X(:,i)=G.*Y(:,i); %Obtain the new Cleaned value

waitbar(i/numberOfFrames,h,num2str(fix(100*i/numberOfFrames)));
end
close(h);
output=OverlapAdd2(X,YPhase,W,SP*W); %Overlap-add Synthesis of speech
%output=filter(1,[1 -pre_emph],output); %Undo the effect of Pre-emphasis
%output=0.999*(output/max(abs(output)));
Nhm : 05 Trang 23
3. Thc hin thut ton :
Bng 1. Cc modul v tham s c trng
Module Tham s Ghi ch
Framing
(Segmentation)
Loi ca s Hamming, Blackman, Kaiser, Hann
(trn thc t ch yu l s dng ca s
Hamming)
Chiu di ca s
W
IS (initial
segment)
SP(Shift
percentage)
nh hng trc tip n NIS, phng
php Overlap/Add, Y nh hng
cht lng thoi.
VAD (Voice
Activity
Detection)
Initialization,
Noise Estimation
and Update noise
Gamma = 1(2)
Gamma = 1: Tr ph bin .
Gamma = 2: Tr ph cng sut.
IS (initial
segment)
Khong yn lng (khng c tn hiu, ch
c nhiu).
Cho php to ra nhiu nn trong cc

khong lng nhiu hay t.
Noise Margin
G nhiu so snh vi nhiu trong tn
hiu trong tin trnh c lng nhiu.
Hangover
Mc nh l 8. T sau gi tr ny tr i
s cho php xc nh cc frame sau l
nhiu hay thoi m gn c cho ph hp
Chng ta thc hin vic x l cc file m thanh b nhiu, vi 2 loi nhiu :
nhiu trng v nhiu do ngi ni xung quanh tng ng vi SNR = 5dB
Dng sng v ph ca tn hiu sch :
Nhm : 05 Trang 24
tm c kt qu ti u trong vic x l nhiu ca tn hiu thoi khi x
dng thut ton SSBoll79 th ta ting hnh c nh cc thng s trong thut ton.
Do thut ton c qu nhiu cc thong s lm cho vic thay i cc thng s kh
khn .Tuy nhin thng s nh hung n u ra ca tn hiu hu nh ph thuc
vo cc tham s SP,Beta,IS,loi ca s ....
Quy nh ca cu hnh CCR(Comparison Category Rate ).
Much
better
Better
Slightly
better
About the
same
Slightly
worse
Worse
Much
worse
-3 -2 -1 0 1 2 3
Sau y l kt qu nh gi ca tng thut ton :
Thut ton 1 : SSBoll79 ( vi gamma = 1 )
Thut ton 2 : SSBoll79 ( vi gamma = 2 )
Nhm : 05 Trang 25
Thut ton 3 : WienerScalart96
3.1 Thut ton SSBoll79 ( vi gamma = 1 )
3.1.1 Vi cc thng s ban u :
Window IS SP W Noiselength NoiseMargin Hangover
Hamming 0.25 0.4 0.025 9 0.03 3 8
Nhm : 05 Trang 26
III . BNG CCR
Magnitude subtraction Power subtraction WienerScalart
Sv1 Sv2 Sv3 Sv4 TB PS Sv1 Sv2 Sv3 Sv4 TB PS Sv1 Sv2 Sv3 Sv4 TB PS
Clean 0 0 0 0 0 0 0 0 0 0 0 0 -2 -2 -1 -1 -1.5 0.5
white
5 dB -1 -1 -1 1 -0.5 0.5 1 1 1 1 1 0 -2 -2 -2 -1 -1.75 0.75
15 dB 3 2 2 2 2.25 0.75 1 1 1 1 1 0 -1 -2 -1 -2 -1.5 0.5
Babble
5 dB 1 1 1 -1 0.5 0.5 -1 1 0 -1 -0.25 0.75 -2 -1 -1 -2 -1.5 0.5
15 dB 2 1 2 1 1.5 0.5 2 2 1 1 1.5 0.5 -2 -1 -1 -1 -1.25 0.75
Nhn xt:
- i vi thut ton Magnitude subtraction, Power subtraction : tn hiu x l c nhiu nn
=> phi thay i IS , dch , i h s beta, hm VAD
- i vi thut ton WienerScalart tn hiu c m thanh khng n nh
=> phi thay i IS , dch , i h s anpha, hm VAD
Nhm : 05 Trang 27
-Nhn chung thut ton Wiener tt hn spectral subtraction(v nn c nhiu nhiu hn)nhng cng cn ch nu t l nn qu ln
th s nn lun c tn hiu=>mt ting ni.
IV. BNG CCR SAU HIU CHNH

1.IS=1
Clean 0 0 2 1 0.75 1.25 0 0 1 2 0.75 1.25 -2 -2 -2 -1 -1.75 0.25
white
5 dB -1 -1 -1 -1 -1 0 -1 -1 0 -2 -1 1 -2 -2 -1 -1 -1.5 0.5
15 dB 2 1 1 1 1.25 0.75 1 2 1 1 1.25 0.75 -2 0 -1 -1 -1 1
Babble
5 dB -1 -1 -1 -2
-
1.25
0.75 -1 0 0 -1 -0.5 0.5 -2 -2 -1 -2 -1.75 0.25
15 dB 2 1 1 3 1.75 1.25 1 1 1 2 1.25 0.75 -1 -1 -1 -1 -1 0
IS cng ln th thut ton wiener cng khng tt
Nhm : 05 Trang 28
Gi IS = 0.25
2. DCH (SP=0.7)
Clean 0 0 0 0 0 0 0 0 0 0 0 0 -2 -2 -1 -1 -1.5 0.5
white
5dB -1 1 -1 -1 -0.5 1.5 -1 1 -1 -1 -0.5 1.5 -1 -2 -2 -2 -1.75 0.75
15dB -1 1 1 -1 0 1 -1 -1 1 -2 -0.75 1.25 -1 -2 -1 -2 -1.5 0.5
Babble
5dB -1 1 -1 -1 -0.5 1.5 -1 -1 -1 -1 -1 0 -1 -1 -2 -2 -1.5 0.5
15dB -1 -1 1 -1 -0.5 1.5 -1 1 1 -1 0 1 -1 -1 -1 -2 -1.25 0.75
Tng dch >0.7 th tn hiu khng tt
dch cng nh hn so vi 0.7 th tn hiu nghe cng r
Nhm : 05 Trang 29
dch chn l 0.5
3. BETA=0.05
Magnitude subtraction Power subtraction
Sv1 Sv2 Sv3 Sv4 TB PS Sv1 Sv2 Sv3 Sv4 TB PS
Clean 0 0 1 0 0.25 0.75 0 0 1 1 0.5 0.5
white
5dB 0 1 1 -1 0.25 0.75 1 2 1 -1 0.75 1.25
15dB 2 3 2 2 2.25 0.75 2 3 2 1 2 1
Babble
5dB 1 2 1 1 1.25 0.75 1 2 1 1 1.75 0.75
15dB 2 3 1 2 2 1 2 3 1 2 2 1
Nhm : 05 Trang 30
4. BETA=0.1
Magnitude subtraction Power subtraction
Sv1 Sv2 Sv3 Sv4 TB PS Sv1 Sv2 Sv3 Sv4 TB PS
Clean 0 0 1 1 0.5 0.5 0 -1 1 1 0.5 0.5
white
5dB -1 -1 1 1 0 1 -1 0 1 1 0.25 0.75
15dB 2 0 2 3 1.75 1.25 1 0 2 2 1.25 0.75
Babble
5dB -1 0 -1 0 -0.5 0.5 -1 -1 -1 0 -0.75 0.25
15dB 1 -1 1 1 0.5 0.5 1 -1 1 1 0.5 0.5
Tng Beta ln mc 0.1 th tn hiu nhiu lm nh hng n tn hiu speech;
Beta=0.05 nghe tn hiu r rng hn mc nhiu b nn cng lm mt i cc khong ngt qung
Vy nn chn Beta=0.05
Nhm : 05 Trang 31
5. ALPHA=0.5
WienerScalart
Sv1 Sv2 Sv3 Sv4 TB PS
Clean 0 0 0 0 0 0
white
5dB -1 -2 -1 -2 -1.5 0.5
15dB -1 1 0 -1 -0.25 0.75
Babble
5dB -1 -1 -2 -2 -1.5 0.5
15dB -1 2 2 1 1 1
Thay i alpha cng thp th tn hiu ra cng b nhiu nhiu nn ta gi alpha = 0.99
i vi tn hiu 5dB th khi thay i cc thng s b nh hng nhiu hn 15dB.
Nhm : 05 Trang 32
6. HANGOVER=3
Clean 0 0 1 0 0.25 0.75 0 0 1 1 0.5 0.5 1 -2 -1 -1 -0.75 1.25
Car
5dB -1 -2 -1 -1 -1.25 0.75 -1 -2 0 -2 -1.25 0.75 -1 -3 -2 -1 -1.75 1.25
15dB 2 0 1 1 1 1 1 -1 1 1 0.5 0.5 -1 -2 -1 -2 -1.5 0.5
Babble
5dB 0 0 0 1 0.25 0.75 0 0 -1 -1 -0.5 0.5 -1 -2 -2 -1 -1.5 0.5
15dB 2 0 1 1 1 1 2 1 1 2 1.5 0.5 -1 -1 -1 -1 -1 0
Nhm : 05 Trang 33
7. HANGOVER=20
Clean 0 0 1 1 0.5 0.5 0 0 1 0 0.25 0.75 -1 -2 -1 -2 -1.5 0.5
white
5dB -1 -1 -1 -1 -1 0 -1 -1 0 -1 -0.75 0.25 -1 -3 -2 -1 -1.75 1.25
15dB 2 2 1 2 1.75 0.25 1 1 1 1 1 0 -1 -2 -1 -1 -1.25 0.75
Babble
5dB 0 1 1 0 0.5 0.5 0 2 1 2 1.25 0.75 -1 -1 -2 -2 -1.5 0.5
15dB 2 2 -1 0 0.75 1.25 2 2 -1 1 1 1 -1 -1 -2 -1 -1.25 0.75
Hangover = 3 th tt hn l 20
Tuy nhin , hangover = 8 vn cho tn hiu tt hn
Nhm : 05 Trang 34
8. NOISE MARGIN=1
Clean 0 0 1 0 0.25 0.75 0 0 1 0 0.25 0.75 -1 -2 -2 0 -1.25 0.75
white
5dB -1 -1 -1 -1 -1 0 -1 -1 0 1 -0.25 0.75 -2 -3 -2 -1 -2 1
15dB 2 2 2 2 2 0 1 2 1 2 1.5 0.5 -1 -2 -1 1 -0.75 1.25
Babble
5dB -1 -1 -1 1 -0.25 0.75 -1 -1 -1 1 -0.5 0.5 -2 -2 -2 -1 -1.75 0.25
15dB 1 2 1 2 1.5 0.5 1 1 2 2 1.5 0..5 -1 -1 1 1 0 1
Nhm : 05 Trang 35
9. NOISE MARGIN=10
Clean 0 0 1 0 0.25 0.75 0 0 1 1 0.5 0.5 -1 -1 -1 -1 -1 0
white
5dB -1 -1 -1 -1 -1 0 -1 -1 0 1 -0.25 0.75 -2 -3 -1 -1 -1.75 1.25
15dB 2 -1 2 1 1 1 1 1 1
1
1 0 -1 -2 0 1 -0.5 1.5
Babble
5dB -1 1 0 2 0.5 1.5 -1 0 0 2 0.25 1.75 -2 -3 -1 1 -1.25 1.75
15dB 1 1 1 2 1.25 0.75 1 -1 1 2 0.75 1.25 -1 -2 1 1 -0.25 1.75
Sau khi x l vi Margin=1 hay Margin=10 tn hiu ra rt xu c bit vi thut ton Wiener
NoiseMargin: vi gi tr bng 1 dB th on cui ca tn hiu ng ra b nhiu ln. Vi gi tr bng 10 dB th mt s
on tn hiu nghe nh.
Gi noisemargin =8
Nhm : 05 Trang 36
10. BNG CCR SAU KHI HIU CHNH HP L TT C CC THNG S
Clean 0 0 1 0 0.25 0.75 0 0 1 1 0.5 0.5 1 1 2 2 1.5 0.5
white
5dB -1 -1 -1 -1 -1 0 0 1 0 1 0.5 0.5 -2 -2 -2 -2 -2 0
15dB 3 3 2 2 2.5 0.5 2 3 2 2 2.25 0.75 1 2 1 1 1.25 0.75
Babble
5dB 1 1 1 1 1 0 1 1 1 1 1 0 0 -1 -1 -1 -0.75 0.25
15dB 1 2 2 1 1.5 0.5 1 2 2 1 1.5 0.5 3 3 3 2 2.75 0.25
Nhm : 05 Trang 37
11.Dng sng v ph tn hiu sau khi x l
a.Phng php spectral subtraction
*Chn cc thng s:
IS=0.2
SP=0.4
Beta=0.05
Noisemargin=3
Hangover =8
*i vi file m thanh c tn hiu SNR=5dB:

x=wavread(' sp01VN_babble_sn5.wav' )
fs=16000;
IS=0.2;
y=SSBoll79(x,fs,IS);
soundview(x,fs)
soundview(y,fs)
wavwri te (y,16000, ' ssbol l 79y.wav' )
Nhm : 05 Trang 38

Nhm : 05 Trang 39

Nhm : 05 Trang 40
b.Phng php Wiener Filter
*Chn cc thng s:
IS=0.2
SP=0.4
Anpha=0.95
Noisemargin=3
Hangover= 8

*i vi file m thanh c SNR=15dB
x=wavread(' sp01VN_babble_sn15' );
fs=16000;
IS=0.2;
y=WienerScalart96(x,fs,IS);
soundview(x,fs)
soundview(y,fs)
wavwrite (y,16000,'wienery.wav' )
Nhm : 05 Trang 41

Nhm : 05 Trang 42

Final

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Final

Загружено:

Авторское право:

Доступные форматы

Bo co DSP 2 Project Speech Enhancement

) di dng phc nh sau:

) c th c biu din dng bin v pha:

)| khng xc nh c, nhng c th thay th

| l bin ph c lng ca nhiu c tnh trong khi khng c

)| lun lun khng

) l mt s thc v lun lun dng, v c gi tr nm trong

) c gi l hm nn l v n cho ta bit t s gia ph

) di dng phc nh sau:

) c th c biu din dng bin v pha:

)| khng xc nh c, nhng c th thay th bng

=0.98 rt tt cho cc tn hiu c SNR<4dB.

Bo co DSP 2 Project Speech Enhancement

Bo co DSP 2 Project Speech Enhancement

Cho php to ra nhiu nn trong cc

Вам также может понравиться