Вы находитесь на странице: 1из 4

ARIEL E.

STASSI - PROCESAMIENTO ESTADISTICO DE SENALES - TRABAJO FINAL

Speech Enhancement via EMD


Kais Khaldi, Abdel-Ouahab Boudraa, Abdelkhalek Bouchikhi y Monia Turki-Hadj Alouane
sifting. Por denici on, una IMF es una funci on que satisface dos condiciones: 1. el n umero de extremos y el n umero de cruces por cero puede diferir, a lo sumo, en uno; 2. el valor medio entre la envolvente denida a partir de los m aximos locales y la envolvente denida a partir de los m nimos locales es nulo. Para ser completamente descompuesta en IMFs, x(t) debe tener al menos dos extremos, un m nimo y un m aximo. A continuaci on, se describe el proceso de sifting: 1. jar un umbral y asignar j 1 (j - esimo IMF); 2. rj 1 (t) x(t) (residuo); 3. extraer el j - esimo IMF : a) hj,i1 (t) rj 1 (t), i 1 (i, n umero de sifts), b) extraer los m aximos y m nimos locales de hj,i1 (t), c) obtener las envolventes superior e inferior Uj,i1 (t) y Lj,i1 (t) interpolando, mediante splines c ubicas, los m aximos y m nimos locales de hj,i1 , respectivamente; d) calcular el promedio de las envolventes como: j,i1 (t) = Uj,i1 (t) + Lj,i1 (t) , 2

ResumenEn el presente trabajo se har a una revisi on del trabajo Speech Enhancement via EMD realizado por Khaldi et al. a ser presentada como trabajo nal del curso Procesamiento Estad stico de Senales 2012

I.

I NTRODUCCI ON

El realce de la calidad e inteligibilidad de las se nales de habla es un problema t pico de procesamiento de se nales, particularmente, cuando puede proponerse un modelo v alido de ruido gaussiano aditivo a la se nal de inter es. Cuando se cuenta con una estimaci on del ruido presente en la se nal, pueden llevarse a cabo m etodos de ltrado tales como el dise no de un ltro de Wiener que posee, como ventaja, la facilidad al momento de su implementaci on pero no resulta capaz de procesar se nales de tipo impulsivas de corta duraci on. Adem as, el ltro de Wiener trabaja bajo la suposici on de que la se nal de inter es proviene de un sistema lineal, lo cual no es el caso de una se nal de habla real. Como propuesta para superar estas limitaciones se propuso la idea de emplear m etodos no-lineales de procesamiento, tales como el umbralamiento de coecientes wavelet. En este caso la limitante es que, para una se nal dada, debe jarse un conjunto de funciones con respecto al cual se realizar a la descomposici on. En el trabajo analizado, se introducen dos estrategias de reducci on de ruido en se nales de habla basadas en la descomposici on emp rica en modos o EMD (del ingl es, Empirical Mode Decomposition). A diferencia de las anteriores, la EMD es una t ecnica de an alisis completamente guiada por los datos que realiza la descomposici on de una se nal en un conjunto de funciones AM-FM denominadas modos intr nsecos o IMFs (del ingl es, Intrinsic Mode Function) a trav es de un proceso iterativo denominado sifting. Las ventajas fundamentales de esta descomposici on yacen en que, al tratarse de una t ecnica completamente guiada por los datos, no se realizan suposiciones de estacionariedad, linealidad y las funciones de la base respecto de las cuales se expresar a una funci on dada son provistas por la misma funci on. Si bien ambos m etodos est an basados en esta t ecnica, la diferencia de enfoque entre ambos radica b asicamente en la posibilidad de contar con una medida del nivel de ruido presente en las se nales a procesar. De ser posible esta estimaci on, surge la estrategia que los autores denominan EMD-MMSE y, de no serlo, EMD-Shrinkage. II. A LGORITMO DE EMD

e) actualizar hj,i (t) = hj,i1 (t) j,i1 (t), e i = i + 1; f ) calcular el siguiente criterio de detenci on:
T

SD(i) =
t=1 T

(|hj,i1 (t) hj,i (t)|2 /(hj,i1 (t))2 ), (|j,i1 (t)|2 /(hj,i1 (t))2 );
t=1

g) repetir los pasos desde 3b a 3f hasta que SD(i) < y luego asignar IMFj (t) hj,i (t) (j - esimo IMF); 4. actualizar el residuo: rj (t) = rj 1 (t) IMFj (t); 5. repetir el paso 3 con j = j + 1 hasta que el n umero de extremos en rj (t) sea menor o igual a 2; donde T es la duraci on temporal de x(t). El resultado del proceso de sifting es que x(t), la se nal a analizar, pueda ser escrita como
C

x(t) =
j =1

IMFj (t) + rC (t),

(1)

Como ya se introdujo, la EMD descompone una se nal x(t) dada en una serie de IMFs a trav es de un proceso denominado

donde C es el n umero de IMFs y su valor depende de la elecci on del criterio de detenci on, en este caso, basado en SD(i).

ARIEL E. STASSI - PROCESAMIENTO ESTADISTICO DE SENALES - TRABAJO FINAL

III. P LANTEO DEL ESQUEMA DE LIMPIEZA DE RUIDO Sea s(t) una se nal limpia de habla que ha sido contaminada por ruido blanco gaussiano aditivo b(t), de modo que: x(t) = s(t) + b(t) (2)

Finalmente, para obtener f j = [IMFj (t), j ], se lleva a cabo el umbralamiento en este caso de tipo hard de acuerdo a la siguiente regla: f j = IMFj (t), si |IMFj (t)| > j 0, si |IMFj (t)| j (10)

La se nal ruidosa x(t) es descompuesta mediante EMD de manera que:


C

x(t) =
j =1

IMFj (t) + rC (t),

(3)

III-B.

EMD-MMSE

donde IMFj (t) es una versi on ruidosa de la informaci on de inter es fj (t): IMFj (t) = fj (t) + bj (t) (4) Una estimaci on f on j (t) de fj (t) basada en la observaci ruidosa IMFj (t) est a dada por: f j (t) = [IMFj (t), j ] , (5)

Esta t ecnica, que surge de la combinaci on de EMD y el uso de un ltro MMSE, requiere de una estimaci on del nivel de ruido presente en la se nal. Para ello, los autores emplean el m etodo de Boll que consiste en la detecci on de los per odos de silencio y luego en la obtenci on de la densidad espectral de potencia del ruido a partir de la promediaci on de los espectros de potencia correspondientes a los M primeros frames de la se nal ruidosa que son considerados como momentos de silencio; esto es: k )|2 = |B( 1 M
M 1

donde [IMFj (t), j ] es una funci on de preprocesamiento, denida por un conjunto de par ametros j , aplicada a IMFj (t). La funci on es escogida de acuerdo a si se cuenta con una caracterizaci on del nivel de ruido. Cuando esta estimaci on es posible se reduce a un ltro MMSE. Sin embargo, cuando esta estimaci on no puede llevarse a cabo, el pre-procesamiento puede ser un umbralamiento (o thresholding), en cuyo caso j es un par ametro asociado al umbral empleado. Finalmente, la se nal procesada, s (t), est a dada por:
C

|B(k , i)|2 ,
i=0

(11)

s (t) =
j =1

f j (t) + rC (t),

(6)

donde |B(k , i)|2 es el valor de la densidad espectral de potencia del frame i a la frecuencia discreta k , con k Z. nico Como puede verse, esta promediaci on resulta en un u espectro de densidad de potencia de ruido v alido para toda la se nal, es decir, el m etodo trabaja bajo la suposici on de ruido estacionario. Como ya se introdujo, esta estrategia se logra sta consiste en combinando EMD y el ltrado MMSE. As , e procesar cada uno de los IMFs con un ltro MMSE como sigue: j (k , m) = Hj (k , m) IMFj (k , m), F (12)

donde queda impl cito que el residuo no posee ruido en s . III-A. EMD-Shrinkage Esta t ecnica, que surge de la asociaci on de EMD y el hard til cuando no es posible shrinkage, se hace particularmente u contar con una estimaci on del nivel de ruido presente en la se nal a procesar. Este caso podr a darse, por ejemplo, si se desea limpiar el registro de una vocal sostenida en el tiempo, en cuyo caso el per odo de silencio podr a no existir directamente. El procesamiento consiste en aplicar, tiempo a tiempo, un umbral adecuado sobre cada uno de los modos obtenidos a trav es de la descomposici on. Para ello, debe formularse un modelo que represente c omo se descompone y distribuye el ruido sobre los modos obtenidos. En base a ello, se estiman estos umbrales como: j = 2 log10 (T )j , (7)

j (k , m) son el espectro del j donde IMFj (k , m) y F simo IMF ruidoso y el espectro de se e nal estimado en el j - esimo IMF, respectivamente, correspondientes al frame m. Hj (k , m)1 es descripta como: Hj (k , m) =
j) SNR( p (k , m) j) 1 + SNR( p (k , m)

(13)

j) j (k , m 1) y donde SNR( se calcula en base a F p (j ) SNRi (k , m), es decir, una estimaci on del espectro de se nal j) asociado al frame anterior y una estimaci on de la SNR( p instant anea: j) SNR( p (k , m) =

j (k , m 1)|2 |F j (k )|2 |B
(j )

donde T es la longitud de la se nal y j es una estimaci on de la desviaci on est andar del ruido presente en el modo j . En base a otros trabajos, los autores proponen que, para j = 1: 1 = 1,4826 mediana {|IMF1 (t) mediana {IMF1 (t)}|} (8) Para el resto de los modos se propone una estimaci on de j en base a 1 de la forma: 1 j = j 1 , con j 2 (9) 2

+ (1 ) max SNRi (k , m), 0 , (14) donde es un factor de ponderaci on (en este caso, tomado (j ) igual a 0.98) y SNRi (k , m) se dene como: SNRi (k , m) =
(j )

|IMFj (k , m)|2 j (k )|2 |B

(15)

1 A diferencia del m etodo presentado por los autores, aqu el m etodo se presenta con una Hj (k , m) diferente para cada modo.

ARIEL E. STASSI - PROCESAMIENTO ESTADISTICO DE SENALES - TRABAJO FINAL

IV. IV-A. EMD-Shrinkage

R ESULTADOS

12

10

A continuaci on, se ilustran los resultados obtenidos a trav es de la implementaci on de esta t ecnica tal como lo sugieren los autores, con la diferencia que se tom o la funci on logaritmo en base 10 en la ecuaci on 7, donde se denen los umbrales correspondientes a cada modo. Se hace esta aclaraci on porque, si bien en el art culo analizado no queda claro de qu e base se trata, revisando art culos relacionados como [?] se encontr o que en este tipo de m etodos se tomaba el logaritmo en base e. Al implementarlo de tal manera, se observ o que se establec an umbrales demasiado altos con los cuales no s olo se reduc a el ruido en la se nal reconstruida sino que se perd a gran cantidad de informaci on de inter es en el procesamiento. Por esta raz on, se tom o a 10 como la base del logaritmo de la Ec. 7. Como medidas de desempe no, se emplean las relaciones de se nal a ruido a la entrada y a la salida denotadas respectivamente como SNRin y SNRout y denidas como: SNRin = 10 log10 SNRout = 10 log10
T t=1

8 SNRout, dB

2 10

4 2 SNRin, dB

(a) Vocal /a/ sostenida.


9 8 7

s(t)2

T 2 t=1 [x(t) s(t)] T 2 t=1 s(t) T s(t) s(t)]2 t=1 [

(16)
SNRout, dB

6 5 4 3 2 1 0 1 10 8 6 4 2 SNRin, dB 0 2 4

(17)

donde T , s(t), x(t) y s (t) son, respectivamente, la cantidad de muestras de las secuencias, la se nal limpia, la se nal ruidosa y la se nal reconstruida luego del procesamiento de los modos intr nsecos de x(t) = s(t) + b(t). En la Fig. 1 se muestran los resultados obtenidos mediante el m etodo EMDhard-Shrinkage sobre dos se nales limpias diferentes una frase y una vocal sostenida en las cuales puede verse c omo mejora la SNR como consecuencia del procesamiento. Para construir estas curvas, se realizaron 20 realizaciones de cada se nal por cada SNR a la entrada del m etodo. En la Fig. 2 se muestran superpuestas la evoluci on temporal de la se nal contaminada con ruido, la se nal limpia y la se nal procesada por este m etodo donde puede verse la reducci on de ruido, sobre todo en los per odos de silencio. Para este caso, se tom o una SNRin = 0 dB y se obtuvo una SNRout = 5,45 dB. EMD-soft-thresholding. Si bien en el trabajo analizado se menciona como posibilidad y nalmente no se propone como m etodo, con una idea similar a la planteada en la Ec. 10, uno de los autores del art culo analizado hab a llevado a cabo en [?] el m etodo EMD-soft-thresholding, denido como: IMFj (t) j , si IMFj (t) > j 0, si |IMFj (t)| j f (18) j = IMF (t) + , si IMF (t) <
j j j j

(b) Frase hablada.

Figura 1: Variaci on de la relaci on se nal a ruido (SNR) luego de aplicar el m etodo EMD-hard-Shrinkage.
SNRin=0dBhshrinkageSNRout=5.45dB

10

15 0 0.2 0.4 0.6 0.8 1 1.2 tiempo, s 1.4

seal ruidosa seal original seal mejorada 1.6 1.8 2

Figura 2: Evoluci on temporal de la se nal deseada y las se nales de entrada y salida asociadas al m etodo.

donde j viene dado por la Ec. 7. En la Fig. 3 pueden verse los resultados obtenidos mediante este m etodo sobre un conjunto de se nales generado de la misma manera que la empleada para el conjunto de entrada al m etodo EMD-hard-Shrinkage. Dado que el procesamiento de tipo soft modica la amplitud de los modos en todos los casos, es de esperar que el

desempe no medido en t erminos de SNRout con respecto a SNRin (denidas seg un 17 y 16, respectivamente) empeore si se compara respecto a los resultados obtenidos con el procesamiento de tipo hard.

ARIEL E. STASSI - PROCESAMIENTO ESTADISTICO DE SENALES - TRABAJO FINAL


Vocal sostenidaEMDsshrinkage 7

5 SNRout, dB

0 10

4 2 SNRin, dB FraseEMDsshrinkage

(a) Vocal /a/ sostenida.


5 4.5 4 3.5 SNRout, dB 3 2.5 2 1.5 1 0.5 0 10 8 6 4 2 SNRin, dB

k , m 1) sin el sub reere y como se obtiene F( ndice j? En el primer t ermino de la Ec. (11), deber a haberse tomado el m odulo de cada uno de los espectros previo a elevar a potencia y realizar el cociente entre ambos; En el segundo t ermino de la Ec. (11), se toma la funci on max {SNRinst (k , m), 0}, donde SNRinst (k , m) viene dado de acuerdo a la Ec. (12) en la cual, una vez m as, se ve el error de no tomar el m odulo de los espectros en cuesti on. Adem as, por tratarse de un cociente de potencias, SNRinst ser a siempre un n umero real positivo y la expresi on max {SNRinst (k , m), 0} no tiene sentido a menos que la relaci on se nal a ruido involucrada se encuentre en dB o alguna otra medida relativa, hecho que en el art culo no es aclarado de manera expl cita. V. SOBRE EMD-S HRINKAGE D ISCUSI ON

(b) Frase hablada.

Figura 3: Variaci on de la relaci on se nal a ruido (SNR) luego de aplicar el m etodo EMD-soft-thresholding.

IV-B.

EMD-MMSE

Las implementaciones que pudieron llevarse a cabo muestran que, desde un punto de vista objetivo basado en la medici on de la SNR, el m etodo EMD-Shrinkage muestra un buen desempe no. Sin embargo, dada la esencia del m etodo se presentan grandes discontinuidades en la se nal reconstruida. De esta manera, desde un punto de vista perceptual, no resulta en una mejora sino en lo contrario. As , los resultados obtenidos personalmente contradicen ciertas armaciones que realizan los autores al introducir el m etodo EMD-Shrinkage donde establecen que a partir de este m etodo puede obtenerse una versi on m as suave de la se nal ruidosa y hacia el nal de la secci on de resultados donde establecen que los dos m etodos presentados en su art culo producen menores ruidos residuales a la escucha y menor distorsi on del habla para todas las se nales analizadas comparadas frente al ltrado MMSE o el m etodo basado en wavelet. Si bien no se implement o el m etodo basado en wavelet para hacer la comparaci on correspondiente, puede decirse que la distorsi on de la se nal es tal que deja de percibirse el contenido de inter es que porta a la entrada del m etodo. VI. C ONCLUSIONES

En este caso, no se ha podido reproducir el m etodo propuesto por los autores debido a serios errores de notaci on y aclaraciones correspondientes a las variables involucradas. A continuaci on, se har an algunas observaciones con referencia a las ecuaciones numeradas seg un el art culo analizado: No queda clara la presencia del ndice m en la Ec. (7), es decir, se establece que se estima un espectro de potencia tomando el promedio sobre los M primeros frames temporales considerados momentos de silencio pero, a qu e se reere m?; No queda claro por qu e presenta el modelo de ruido a trav es de los modos en la Ec. (8) si no se hace uso de ello hasta la Ec. (13), ya correspondiente al m etodo EMDShrinkage (y no a EMD-MMSE); Por la notaci on empleada en la Ec. (9), se interpreta que se emplea el mismo ltro caracterizado por H(k , m) para todos los modos pero de ser as , tiene sentido llevar a cabo la descomposici on modal emp rica?, por qu e se plantea el modelo de ruido en la Ec. (8)?, a qu e se

Pudo llevarse a cabo la revisi on de un art culo cient co particular y reproducir parte de los m etodos propuestos. Se encontr o que es necesario contar con bases aanzadas para llevar a cabo la interpretaci on correcta de las ideas propuestas. Desde las dicultades encontradas, se vio adem as la importancia que cobran aspectos como el rigor, la notaci on en stas expresiones matem aticas y aclaraciones pertinentes a e como una herramienta de comunicaci on clara de ideas, sobre todo en esta rama del conocimiento.

Вам также может понравиться