Академический Документы
Профессиональный Документы
Культура Документы
Los coeficientes cepstrales Mel-frequency (MFCC): se utiliza para aplicaciones de la voz y aplicaciones MIR. La medida de espectro plano (SFM): indica que tan plana es la densidad de potencia espectral en una sub banda dada. Factor de cresta espectral (SCF): indica que tan poco plano es el espectro de potencia, expresando la relacin pico por promedio dentro de cada sub banda La caracterstica de energa baja: es un establecimiento en el anlisis a largo plazo y refleja la textura de la cancin. El flujo espectral : es la medida del cambio de espectro local sobre el tiempo La inclinacin espectral: es un indicador de la pendiente general del envolvimiento espectral. Sonoridad normalizada: Es normalizada dividiendo la sonoridad especfica con cada sub banda por la sonoridad sobre todas las bandas La sonoridad logartmica delta: es la derivada de tiempo de banda del logaritmo para sonoridad especfica. La nitidez: Es un indicador global para la cantidad de componentes de frecuencias altas en el espectro.
En el caso de extraccin de frecuencias, se utiliza un proceso de enventanado, seguido por una transformada de Fourier. Se utilizaron dos estrategias de entrenamiento y clasificacin para estimar la similaridad de la msica: La primera consiste en un algoritmo de cuantizacin de vector (VQ) para lograre una representacin condensada de las caractersticas del vector. La segunda consiste en la extraccin de caractersticas de un vector representada usando el modelo de mezcla gaussiana (GMM). Los resultados de clasificacin representan la probabilidad de ser un elemento de la prueba perteneciente a los elementos de la base de datos. Para cada estrategia de clasificacin, se realizan los siguientes pasos: Las caractersticas son extradas de todos los 30 tems de la base de datos de entrenamiento por 30 segundos La similaridad entre estas caractersticas y las de entrenamiento, se determina usando una clasificacin kNN y por otro lado empleando la clasificacin GMM resultando en la distancia de valores de probabilidad/puntuacin entre todos los tests y el entrenamiento. Los valores de distancia entre los tems del test y los tems del entrenamiento, se usan para clasificar de acuerdo a la similaridad con respecto a un tem particular Para cada uno de los tems, la posicin de la lista de su contraparte estilstica en la base entrenada es determinada y promediada a travs de los tems, resultando una lista de probabilidad de posicin.
Utilizando la lista de probabilidad de posicin, para comparar la similaridad, el objetivo del proceso de desarrollo es reducido a un procedimiento automtico para lo cual, la cantidad de tiempo consumido en tests subjetivos de escucha, pueden ser evitados efectivamente.
Usando Extraccin de mltiples caractersticas con modelos estadsticos para categorizar msica por gnero
Benjamin Fields. Using Multiple Feature Extraction with Statistical Models to Categorize Musica by Genre. Goldsmiths College. University of London. United Kingdom. 2007 En aos recientes, ha aumentado la popularidad de los dispositivos porttiles de audio. Esto unido a el crecimiento de produccin de computadores personales y dispositivos integrados, la forma en la que la gente escucha msica ha cambiado. Para facilitar la categorizacin de las libreras de msica, se utiliza un sistema usando caractersticas vectoriales MPEG-7 , as como MFCC clasificados a travs de Modelos de Markov y otros mtodos estadsticos. La salida de estos modelos es comparada posteriormente y se elige el gnero al que pertenecen, basado en el modelo que mejor se ajuste. Los resultados son analizados para mejorar los sistemas de clasificacin y categorizacin, derivada de descriptores de audio extrados que expanden los sistemas existentes.