Вы находитесь на странице: 1из 9

Recibido, 11/05/2010 Aceptado, 18/08/2010

Artculo original

Segmentacin de Imgenes Mdicas Digitales mediante Tcnicas de Clustering


Digital Medical Image Segmentation with Clustering Techniques

Gustavo Lorca T. , Jos Arzola R. , Osvaldo Pereira B.

RESUMEN En este trabajo se emplea tcnicas de Clustering en la segmentacin de imgenes mdicas digitales para ser utilizadas en la reconstruccin de modelos anatmicos 3D a partir del estndar Digital Images and Comunication in Medicine (DICOM) con el fin de mejorar los resultados reportados en las fuentes bibliogrficas. Son expuestos los algoritmos de Clustering Particional implementados y los resultados alcanzados con estos. Se compara entre s los resultados alcanzados con ayuda de los mtodos K-means y Fuzzy K-means y se recomienda procedimientos para la inicializacin de los centroides. Palabras clave: Segmentacin de imgenes; Mtodo de clustering K-means; Mtodo de clustering Fuzzy K-means. ABSTRACT In this work Clustering techniques are employed in the segmentation of digital medical images to be used in the reconstruction of anatomical 3D models, starting from the standard DICOM format with the purpose of improving the results reported in the bibliographical sources. The implemented Partitional Clustering algorithms are exposed. The results reached helped by K-means and Fuzzy K-means methods are compared to each other and procedures are ecommended for the centroids initialization. Key words: Image segmentation; K-means clustering method; Fuzzy K-means clustering method.

Universidad de las Ciencias Informticas

108

Rev. Aporte Santiaguino 2010; 3(1): 1. ISSN 2070-836X

Segmentacin de Imgenes Mdicas Digitales INTRODUCCIN El veloz desarrollo de las tecnologas de adquisicin de imgenes mdicas digitales est revolucionando la medicina. La informacin contenida en las imgenes mdicas es tratada por medios de cmputo que permiten mejorar la calidad. Con la utilizacin de estos se puede eliminar en cierta medida el ruido proveniente del equipo mdico utilizado para la captura de la imagen, realizar resaltes en zonas y segmentar la imagen en diferentes partes constituyentes. Han sido creados innumerables mtodos de segmentacin de imgenes digitales basados en diferentes ramas de las matemticas, entre ellos algunos de uso general y otros especficamente para un tipo de imagen, muchos juegan un papel relevante en numerosas aplicaciones. Ninguno de estos en la actualidad resuelve el problema de manera global, sino que presentan sus ventajas y desventajas segn el uso que se les d, aunque continuamente se crea nuevos mtodos y se mejora los existentes obtenindose cada vez mejores resultados y hacindose ms imperiosa su utilizacin. "Si bien son muchas las opciones disponibles, an no existen soluciones definitivas ni algoritmos generalmente aplicables, por lo que la segmentacin de imgenes constituye un campo de continua investigacin." (Del Fresno & J Vnere, 2002) El Clustering de datos ayuda a discernir la estructura y simplifica la complejidad de cantidades masivas de datos. Es una tcnica comn y se utiliza en diversos campos, donde la distribucin de la informacin puede ser de cualquier tamao y forma. La eficiencia de los algoritmos de Clustering es extremadamente necesaria cuando se trabaja con enormes bases de datos y tipos de datos de grandes dimensiones. (Villagra, Guzmn, Pandolfi, & Leguizamn, 2008) Este trabajo presenta una comparacin entre diferentes mtodos de segmentacin de imgenes que justifica la aplicacin de algoritmos de Clustering al problema de segmentacin de imgenes mdicas digitales, as como tambin son expuestos los resultados obtenidos con los algoritmos K-means y Fuzzy K-means sobre grandes volmenes de datos como son las series de imgenes digitales pertenecientes al estndar DICOM. MATERIALES Y MTODOS Han surgido aplicaciones informticas dedicadas al tratamiento de imgenes digitales y algunas de estas

Lorca G.

especializadas en la reconstruccin de modelos anatmicos 3D. La reconstruccin 3D es el proceso mediante el cual, objetos reales, son reproducidos en la memoria de una computadora manteniendo sus caractersticas fsicas (dimensiones, volumen y forma). Estas tcnicas posibilitan mejor visualizacin de la informacin obtenida por los equipos mdicos especializados. En consecuencia, en la Universidad de las Ciencias Informticas el proyecto Visualizacin Mdica fue creado con el objetivo de desarrollar aplicaciones que permitan la visualizacin 3D de modelos anatmicos obtenidos a partir del procesamiento de imgenes mdicas digitales, basada en la reconstruccin tridimensional. Este proceso tiene una etapa que consiste en la segmentacin de la imagen y que actualmente se realiza con la utilizacin de tcnicas muy bsicas que conllevan a que los modelos 3D no representen de forma exacta los rganos de la anatoma humana, esto trae como consecuencia que la visualizacin no sea realista, haciendo su interpretacin ms difcil para los especialistas. Dada la situacin expuesta anteriormente se plantea como problema cientfico: Cmo lograr que los rganos de la anatoma humana representados en imgenes mdicas digitales sean segmentados de forma precisa durante el proceso de reconstruccin tridimensional llevado a cabo por el proyecto Visualizacin Mdica? Siendo as, se toma como objeto de investigacin la segmentacin de imgenes y es propuesto como campo de accin la segmentacin de imgenes mdicas digitales. Se plantea como objetivo de esta investigacin la elaboracin de un mdulo para la segmentacin de imgenes mdicas digitales mediante tcnicas de Clustering. Destacan entre los mtodos cientficos de investigacin, los siguientes: ? Mtodos Tericos: o Analtico Sinttico: Para concretar y resumir el conocimiento reflejado en los materiales consultados y utilizarlo en el desarrollo de esta investigacin. o Modelacin: Para predecir acontecimientos que no han sido observados an. ? Mtodos Empricos: o Observacin: Es el mtodo emprico contemplativo que permite obtener informacin necesaria en cualquiera de las fases de la investigacin. o Medicin: Para obtener informacin numrica acertada de magnitudes medibles
Rev. Aporte Santiaguino 2010; 3(1): 1. ISSN 2070-836X

109

Segmentacin de Imgenes Mdicas Digitales que permitan realizar comparaciones en los resultados. Experimentacin Cientfica: Para llegar a conclusiones a travs de la alteracin controlada de las condiciones que permiten crear modelos, reproducir condiciones y extraer rasgos distintivos.

Lorca G.

representa por Vi . El centroide de los vectores de una regin de Voronoi viene dado por:

1 Vi

xVi

K-means K-means es un mtodo particional que intenta encontrar un nmero especfico de grupos, los cuales estn representados por sus centroides, aplicable a un grupo de objetos en un espacio continuo n-dimensional. Es uno de los algoritmos de Clustering ms antiguos y ampliamente usados. Es denominado centroide representativo de un cluster el vector formado por las medias de cada una de las componentes de los elementos pertenecientes al cluster. La tcnica general de Clustering K-means es muy simple. A continuacin se presenta la descripcin del algoritmo bsico. (Tan, Steinbach, & Kumar, 2006) 1. 2. Seleccionar K centroides, donde K es el nmero de clusters deseado. Asignar cada punto al centroide ms cercano y cada coleccin de puntos asignados a un centroide es un cluster (Regin de Voronoi). Actualizar los centroides de cada cluster, basados en los puntos asignados al cluster. Repetir el proceso de asignacin y actualizacin hasta que ningn punto cambie de cluster, o lo que es lo mismo, hasta que los centroides permanezcan iguales. Fin.

El algoritmo descrito busca minimizar la siguiente funcin objetivo donde SSE es la suma del cuadrado de los errores, Ci es el i-esimo cluster de la particin, d (x, Ci) es la medida de disimilitud o distancia entre el elemento x y el cluster Ci :

SSE = d ( x, Ci ) 2
i =1 xCi

Fuzzy K-means Fuzzy K-means (tambin llamado Fuzzy C-means) es una extensin del K-means. Mientras K-means encuentra particiones para las que un punto pertenece a un solo cluster, Fuzzy K-means es un mtodo estadsticamente formalizado que encuentra K clusters donde un punto puede pertenecer a ms de un cluster con cierto valor de pertenencia (Jain, Murty, & Flynn, 1999). Tiene su basamento en la teora de conjuntos imprecisos o poco definidos (Fuzzy set) propuesta por Zadeh (1965) y fue creado por Ruspini (1969), Bezdek (1964) y Dunn (1974). La teora Fuzzy set es una generalizacin del lgebra Booleana, por lo que la funcin de pertenencia de un elemento a los grupos se encuentra en el intervalo [0,1]; es decir un elemento puede pertenecer totalmente a una clase, a todas o a ninguna. (Ortega, Foster, & Ortega, 2002) Como el K-means, Fuzzy K-means trabaja con aquellos objetos que pueden ser representados en un espacio n-dimensional con una medida de distancia definida (Jain, Murty, & Flynn, 1999). El procedimiento Fuzzy K-means minimiza la siguiente funcin objetivo:
f 2 SSE ( M , C ) = mij d ij i =1 j =1 n k

3. 4.

5.

Sea el conjunto de datos X = {x1 , x2 ,..., xn } Dado un centroide (representante de una agrupacin) yi , el conjunto de puntos de X que est ms cercano a yi que a cualquier otro centroide segn la medida d (x, y) se denomina regin de Voronoi de yi y se denota por (Tan, Steinbach, & Kumar, 2006):

Sujeto a:
n

m
j =1
ij

ij

=1

i = 1,2,..., n

Vi = {x X : d ( x, yi ) < d ( x, y j ), i j}
El nmero de vectores en una regin de Voronoi se
110
Rev. Aporte Santiaguino 2010; 3(1): 1. ISSN 2070-836X

m
i =1

> 0 j = 1, 2,..., k mij [0,1]

Donde SSE (M, C) es la suma del cuadrado de los

Segmentacin de Imgenes Mdicas Digitales errores dentro de las clases, M es la matriz n x k de pertenencia a los grupos (mij =1 si el elemento i pertenece totalmente al cluster j y mij = 0 es lo contrario), C es la matriz k x p de centro de las clases siendo p el nmero de componentes del espacio, f es el grado de imprecisin de la solucin 2 (fuzziness exponent) y d ij es el cuadrado de la distancia entre el elemento i y el centro representativo del cluster j. El algoritmo de solucin de la funcin objetivo consta de las siguientes etapas iterativas (Ortega, Foster, & Ortega, 2002): Seleccionar el nmero de clases k, con 1 < k < n. Si k es 1 o n el anlisis no es necesario. Seleccionar el valor de fuzziness exponent f, con f >1 Los valores comnmente usados estn en el rango 1.1 a 2. Seleccionar la definicin de distancia en el espacio variable. Las distancias ms usadas son la Eucldea y Mahalanobis. Seleccionar un valor del criterio de detencin, e = 0.001 da una convergencia razonable. Iniciar con M = M0, por ejemplo con una agrupacin aleatoria o con una agrupacin de particin rgida (K-means). En las iteraciones i = 1, 2, 3,... re-calcular C = Ci usando Mi -1 con la ecuacin:
n

Lorca G.

Si M i - M i -1 < e entonces parar, sino retornar al paso 5. Donde M i - M i -1 es el mayor valor absoluto de la diferencia entre los elementos de la matriz Mi y sus correspondientes elementos de la matriz Mi-1. Segn el criterio de detencin e, el algoritmo converge con mayor o menor nmero de iteraciones. Sin embargo, la solucin no es siempre ptima pues puede converger hacia mnimos locales en funcin de la estimacin inicial (Oliva i Cuys, de Cceres Ainsa, Font Castell, & Cuadras Avellana, 2001), esta misma desventaja fue vista en el algoritmo Kmeans aunque este mtodo mejora el problema de convergencia del K-means (Jain, Murty, & Flynn, 1999). RESULTADOS Como resultado de todo el proceso de investigacin fue posible el desarrollo de un mdulo de segmentacin de imgenes mdicas digitales mediante tcnicas de Clustering que valida en buena medida la calidad de las conclusiones obtenidas. Los resultados que aqu se muestran fueron obtenidos en una PC Intel Pentium 4 a 3.00GHz y 1GB de RAM con sistema operativo Ubuntu Desktop 9.10 i386. Las siguientes tablas muestran la configuracin de los parmetros de inicializacin del algoritmo Kmeans y algunos datos que permiten evaluar su funcionamiento. En las imgenes resultados del proceso de Clustering aparecen en las posiciones de los pxeles un color representativo del cluster al que pertenece:

Cj =

m
i =1 n i =1

f ij i

m
mij =
k

f ij

Re-calcular M = M1 usando Ci y la ecuacin:


2 d ij /(f -1) 2 /(f -1) ir

d
r =1

Cantidad de imgenes 1

Cantidad de clusters 2

Demora (segundos) 1.43

Inicializacin de los centroides Por frecuencia

Medida de distancia Color

Figura 1. Experimento 1 del algoritmo K-means


Rev. Aporte Santiaguino 2010; 3(1): 1. ISSN 2070-836X

111

Segmentacin de Imgenes Mdicas Digitales

Lorca G.

Cantidad de imgenes 1

Cantidad de Demora Inicializacin de clusters (segundos) los centroides 2 2.45 Por frecuencia Figura 2. Experimento 2 del algoritmo K-means

Medida de distancia Mahalanobis

Cantidad de imgenes 1

Cantidad de Demora Inicializacin de clusters (segundos) los centroides 2 1.819 Por frecuencia Figura 3. Experimento 3 del algoritmo K-means

Medida de distancia Manhattan

Cantidad de imgenes 1

Cantidad de Demora Inicializacin de clusters (segundos) los centroides 2 1.605 Dispersos Figura 4. Experimento 4 del algoritmo K-means -

Medida de distancia Color

Cantidad de imgenes 1

Cantidad de clusters 2

Demora (segundos) 1.61

Inicializacin de los centroides Aleatorio

Medida de distancia Color

Figura 5. Experimento 5 del algoritmo K means


112
Rev. Aporte Santiaguino 2010; 3(1): 1. ISSN 2070-836X

Segmentacin de Imgenes Mdicas Digitales

Lorca G.

Cantidad de imgenes 1

Cantidad de clusters 3

Demora (segundos) 2.391

Inicializacin de los centroides Por frecuencia

Medida de distancia Color

Figura 6. Experimento 6 del algoritmo K- means Para el algoritmo K-means la medida de distancia que mostr los mejores resultados en cuanto a tiempo y calidad es la diferencia de color. El procedimiento de inicializacin de los centroides con el cual se hizo notable la reduccin del tiempo de ejecucin del algoritmo fue la aproximacin mediante la frecuencia de color. Las imgenes DICOM utilizadas en los ejemplos son de 512x512 pxeles, lo que representa un total de 262144 pxeles, para los cuales las demoras en la obtencin de los resultados de una sola imagen nunca excedi los tres segundos. Para 24 imgenes de 512x512 la demora estuvo sobre los 20 segundos, pero cabe destacar que en casos como estos se habla de 6029312 pxeles como entrada del algoritmo. Los experimentos aqu mostrados son solo algunos de los muchos que se realizaron. El algoritmo Fuzzy Kmeans aplicado a la segmentacin de imgenes mdicas digitales pres ent las mis mas caractersticas que el K-means en cuanto a inicializacin de los centroides y medida de distancia se refiere, por tanto los experimentos que se mostrarn estarn basados por motivos de simplificacin en inicializacin de los centroides por el mtodo de mayor frecuencia de color y la medida de distancia ser la diferencia de color. La eleccin del exponente difuso se realiz en el intervalo [1.1, 2] y los resultados de los valores prximos a 1.1 superan los resultados de los valores prximos al otro extremo del intervalo, sin embargo, la duracin real del algoritmo en la mayora de los casos disminuy para los exponentes difusos cercanos a dos. Las siguientes dos tablas ejemplifican lo antes expuesto:

Cantidad de imgenes 32

Cantidad de clusters 2

Demora (segundos) 283.108

Inicializacin de los centroides Por frecuencia

Medida de distancia Color

Exponente difuso 1.1

Error mximo 0.001

Figura 7. Experimento 1 del algoritmo Fuzzy K -means


Rev. Aporte Santiaguino 2010; 3(1): 1. ISSN 2070-836X

113

Segmentacin de Imgenes Mdicas Digitales

Lorca G.

Cantidad de imgenes 32

Cantidad de clusters 2

Demora (segundos) 181.66

Inicializacin de los centroides Por frecuencia

Medida de distancia Color

Exponente difuso 2.0

Error mximo 0.001

Figura 8. Experimento 2 del algoritmo Fuzzy K -means El error mximo permitido para la mayora de los experimentos fue fijado a 0.001 con el objetivo de tener una medida confiable de evaluacin y ajustarse a las recomendaciones de la documentacin consultada, no obstante valores menos extremistas como 0.005 garantizan resultados similares. Las prximas tres imgenes exhiben una comparacin entre los resultados de los algoritmos K-means y Fuzzy K-means utilizando las mismas 32 imgenes de entrada, con inicializacin de los centroides por mxima frecuencia de color y como medida de disimilitud la diferencia de color. Adems el exponente difuso y el error mximo permitido para el Fuzzy K-means fueron de 1.1 y 0.001 respectivamente. El algoritmo Fuzzy K-means consumi 283.108 segundos en ejecucin mientras que el K-means solo consumi 97.591 segundos.

Imagen original

Resultado del algoritmo Kmeans

Resultado del algoritmo Fuzzy K-means

Figura 9. Comparacin K -means - Fuzzy K-means DISCUSIN Clustering puede ser considerado el ms importante problema de aprendizaje no supervisado. Un cluster es una coleccin de objetos que son similares entre s segn un determinado criterio de similitud y distintos a los objetos que pertenecen a otros clusters. Los algoritmos basados en el agrupamiento particional tienen como objetivo minimizar la
114
Rev. Aporte Santiaguino 2010; 3(1): 1. ISSN 2070-836X

varianza intracluster y maximizar la varianza intercluster. Estos mtodos descomponen el conjunto de objetos en un conjunto de clusters disjuntos, minimizando una funcin criterio que enfatiza la estructura local de los objetos, asignando clusters a mximos locales en la estructura global. (Miguel Jimnez, 2008)

Segmentacin de Imgenes Mdicas Digitales La determinacin de la inicializacin de los centroides juega un papel crucial debido a que cuanto mejor sea la particin inicial ms rpido converger el algoritmo. Aunque se asegura la convergencia, sta no tiene por qu ser un mnimo global. Una forma de realizar esta eleccin es calcular el histograma n-dimensional de la imagen y determinar los picos dominantes del mismo. Los K picos dominantes se hacen corresponder con los K centroides inicializados. Las agrupaciones al comenzar se pueden seleccionar aleatoriamente, con lo que disminuye la complejidad pero aumenta el tiempo de convergencia del algoritmo (Acha Piero, 2002). Una opcin recomendable y que suele ofrecer buenos resultados es la de realizar un anlisis cluster jerrquico y elegir como particin inicial la obtenida con un nivel de similitud que aplicado al rbol ultra-mtrico conduzca al nmero de grupos deseado. (Oliva i Cuys, de Cceres Ainsa, Font Castell, & CuadrasAvellana, 2001) As, una de las desventajas de los algoritmo Kmeans y Fuzzy K- means es que el cluster resultante es sensible a la eleccin inicial de los centroides y puede converger en un mnimo local. Por ambos mtodos se realiza una bsqueda local en la vecindad de la solucin inicial y va refinando la particin resultante, por esta razn se puede utilizar algn algoritmo de bsqueda global para inicializar los centroides. Los resultados de Fuzzy K-means fueron superiores para valores del exponente difuso prximos a 1.1 en cuanto a la calidad misma de la segmentacin avalada por expertos. Sin embargo, la duracin real del algoritmo en la mayora de los casos disminuy para los exponentes difusos cercanos a dos. El algoritmo de Cmulo de Partculas (PSO Particle Swarm Optimization) es una tcnica de optimizacin estocstica que puede utilizarse para encontrar una solucin ptima o cercana, ha sido aplicado a Clustering de datos y de textos con muy buenos resultados. (Villagra, Guzmn, Pandolfi, & Leguizamn, 2008) CONCLUSIONES El anlisis minucioso de los algoritmos de Clustering ms significativos y la experimentacin fueron los precedentes para la construccin de un mdulo de segmentacin de imgenes mdicas digitales que dio cumplimiento a los objetivos planteados, para ello se determinaron los siguientes aspectos: 1. Las tcnicas de Clustering presentan ventajas

Lorca G.

con respecto a las otras tcnicas de segmentacin de imgenes. 2. La diferencia de color es el indicador de disimilitud ms adecuado para la ejecucin de los algoritmos tratados. 3. La heurstica de anlisis de frecuencia de color para la inicializacin de los centroides de los algoritmos vistos es la que proporciona los resultados ms acertados. 4.Para el perfeccionamiento ulterior de las tcnicas de segmentacin de imgenes mdicas mediante tcnicas de Clustering se ha detectado las siguientes vas: o Bsqueda de procedimientos ms avanzados de inicializacin de los centroides. o Utilizacin de algoritmos que permitan alcanzar el ptimo global o al menos aproximarse al mismo, tanto para el mtodo K-means como para el Fuzzy K-means. 5. El mdulo de segmentacin de imgenes mdicas digitales presenta un diseo extensible y refinado que no lo mantiene atado a alguna biblioteca, fue desarrollado sobre estndares y brinda la posibilidad de ser adaptado fcilmente a diferentes sistemas. Sobre los sistemas operativos Ubuntu 9.10 y Windows XP se realizaron las pruebas que alegan alta fiabilidad y robustez. REFERENCIAS BIBLIOGRFICAS Acha Piero, B. (Abril de 2002). Segmentacin y clasificacin de imgenes en color. Aplicacin al diagnstico de quemaduras. Tesis Doctoral. Sevilla, Sevilla, Espaa: Universidad de Sevilla. ? del Fresno, M., & J Vnere, M. (2002). Segmentacin de Imgenes Mdicas por Crecimiento de Regiones con Conocimiento Adicional. Tandil, Buenos Aires, Argentina: PLADEMA-ISISTAN, Universidad Nacional del Centro. ? Jain, A. J., Murty, M. N., & Flynn, P. J. (Septiembre de 1999). Data Clustering: A Review. ACM Computing Surveys, Vol. 31, No. 3. ? Miguel Jimnez, J. M. (Marzo de 2008). Introduccin al Tratamiento Digital y Clustering de Imgenes. Alcal, Madrid,
?

Rev. Aporte Santiaguino 2010; 3(1): 1. ISSN 2070-836X

115

Segmentacin de Imgenes Mdicas Digitales Espaa: Departamento de Electrnica, Universidad deAlcal. ? Oliva i Cuys, F., de Cceres Ainsa, M., Font Castell, X., & Cuadras Avellana, C. M. (Noviembre de 2001). Contribuciones desde una perspectiva basada en proximidades al Fuzzy Kmeans Clustering. Jan, Andaluca, Espaa: XXVI Congreso Nacional de Estadstica e Investigacin Operativa: bedabeda, Universidad de La Rioja, ISBN 84-8439-080-2. ? Ortega, J. A., Foster, W., & Ortega, R. (2002). Definicin de Sub-Rodales para una Silvicultura de Precisin: Una aplicacin del mtodo Fuzzy K-means. Santiago, Chile: Facultad de Agronoma e Ingeniera Forestal, Pontificia Universidad Catlica de Chile, Casilla 306-22. Correspondencia:
Gustavo Lorca Carretera de San Antonio de los Baos Km. 2 La Habana - Cuba 9toronzo@estudiantes.uci.cu

Lorca G.

Tan, P. N., Steinbach, M., & Kumar, V. (Marzo de 2006). Introduction to Data Mining. Recuperado el 10 de Febrero de 2010, de Addison-Wesley Companion Book Site: http://wwwusers.cs.umn.edu/~kumar/dmbook/index.php ? Villagra, A., Guzmn, A., Pandolfi, D., & Leguizamn, G. (2008). Anlisis de medidas nosupervisadas de calidad en clusters obtenidos por K-means y Particle Swarm Optimization. Argentina: Universidad Nacional de la Patagonia Austral, Unidad Acadmica Caleta Olivia, Universidad Nacional de San Luis, Laboratorio de Tecnologas Emergentes, Laboratorio de Investigacin y Desarrollo en Inteligencia Computacional.
?

116

Rev. Aporte Santiaguino 2010; 3(1): 1. ISSN 2070-836X

Вам также может понравиться