Вы находитесь на странице: 1из 11

Mtodo de Anlisis de Cluster

1. Introduccin
2. Metodologa Estadstica
2.1 Mtricas de distancia
2.2 Mtodos jerrquicos de clster
Mtodos de agrupamientos de clster
Tcnicas de formacin de clster
2.3 Mtodos no jerrquicos de clster
2.4 Determinacin del nmero de clster
2.5 Interpretacin de los clster
2.6 Mtodo bietpico
3. Ejemplos de aplicacin
1. Introduccin

El Anlisis de Cluster o Conglomerado, es un


mtodo multivariado cuyo propsito es el de
agrupar objetos o individuos, de tal manera que
los objetos que se clasifican y pertenecen a un
grupo o cluster son muy similares (homogeneidad
dentro del grupo o cluster), mientras que son muy
dismiles aquellos objetos que pertenecen a
grupos diferentes (heterogeneidad entre grupos o
cluster).
1. Introduccin
El AC, est considerado dentro de los mtodos de
interdependencia y como una tcnica exploratoria.
El AC, se pude utilizar para agrupar unidades
elementales y tambin para agrupar variables.
El AC, utiliza mtricas e ndices de similitud como
una medida de distancia
Las variables deben ser estandarizadas cuando
tienen diferentes unidades de medida.
Si existen muchas variables, puede presentarse el
problema de multicolinealidad. Es posible aplicar
el anlisis de componentes principales.
2.1 Medidas de distancias
A mayor distancia los individuos estn ms
alejados. La distancia entre dos individuos i
y j: y
Euclidiana. Depende de la unidades de
medida, aplicndose a variables
estandarizadas. No considera la posible
correlacin entre las variables.
Mahalanobis. Considera la correlacin entre
las variables, utilizando las covariancias
como ponderacin.
Pearson.
2.2 Mtodos jerrquicos de cluster
Se basan en un proceso secuencial para la
formacin de los grupos o cluster, a travs de
establecer jerarquas entre los objetos o individuos
y consiguiendo que no tengan elementos comunes.
Utilizan mtodos aglomerativos y de divisiones
sucesivas para el agrupamiento y tcnicas para la
conformacin de los cluster basadas en medidas
de distancia. Para la identificacin de los grupos o
cluster se emplea el Dendograma.
2.2 Mtodos jerrquicos de cluster
Mtodo aglomerativo. Se inicia con n grupos igual al nmero de
objetos y se van uniendo en forma aglomerativa (ascendente) de acuerdo
a sus cercanias (distancias o similitudes); al final se forma un slo cluster
con todos los objetos. Las tcnicas de formacin de cluster son:
Enlace simple o vecino ms cercano (single linkage o nearest
neighbor). Los grupos se van uniendo de acuerdo a su menor
distancia o mayor similaridad (vecino ms cercano). Apropiado cuando
los grupos estn claramente diferenciados. Tiende a unir cluster muy
diferentes y esta afectado por la presencia de datos atpicos (forman
demasiados grupos).
Enlace completo o vecino ms alejado (complete linkage o
furthest neighbour). Los cluster se van uniendo de acuerdo a la
distancia ms grande entre un par de elementos de cada grupo o
cluster (vecino ms alejado). Tambin es sensible a datos atpicos.
Enlace promedio (average linkage). Considera como distancia entre
dos grupos, la distancia media entre todos los pares posibles de
datos. Tiende a producir cluster compactos.
Enlace centroide (centroide linkage). Considera como distancia
entre dos grupos sus centros de gravedad (promedio de las variables).
No esta influenciado por valores atpicos.
Enlace Ward. Utiliza el anlisis de variancia para evaluar la distancia
entre dos grupos (minimiza la SC de los grupos).
2.2 Mtodos jerrquicos de cluster
Mtodo de divisiones. Su proceso secuencial de formacin de cluster es
contrario al aglomerativo. Se inicia con un solo grupo o cluster, que
contiene los n objetos. Luego se van dividiendo (descendente) en
subgrupos considerando los ms alejados, hasta llegar a n grupos de un
solo elemento. Las tcnicas de formacin de cluster son:
Algoritmo de Howard-Harris. Es un procedimiento descendente,
utilizando como criterio el de minimizar la variancia intragrupos (error)
de cada subgrupo. Es adecuado cuando se tiene un gran nmero de
objetos o individuos a clasificar.
2.3 Mtodos no jerrquicos de cluster
Utilizan un proceso iterativo para la formacin de
los grupos o cluster; necesitando fijar de antemano
(a priori) el nmero de cluster. A diferencia del
mtodo jerrquico, este procedimiento si permite
reasignar un elemento en pasos posteriores a un
grupo diferente inicialmente asignado. Estos
mtodos son aplicados a volmenes grandes de
datos y para detectar datos atpicos (eligiendo un
nmero alto de cluster, se identifica grupos con
pocos datos).
Mtodo de K-Medias. Utiliza la tcnica
aglomerativa para la formacin de cluster y la
distancia euclidiana.
2.4 Determinacin del nmero de cluster
El nmero de cluster depende de la distancia que se haga el
corte (menor distancia mayor nmero de grupos).
1. Mtodo Grfico. Se utiliza el Dendograma, que
muestra el agrupamiento de los objetos en la
conformacin de cada cluster.
2. Pseudo Estadstica F (Tipo F de Beale).
Obteniendo y Evaluando ANVAs de cada variable,
esperando que resulte significativa la F.
3. Pseudo Estadstica de T2 de Hotelling. Permite
probar la igualdad de los vectores de medias de
las variables de dos grupos. Se espera que la
prueba sea significativa, indicando que los
vectores de medias son diferentes (cluster
diferentes).
2.5 Interpretacin de los Clster
Consiste en interpretar la composicin de cada
grupo formado, para ello se debe considerar las
caractersticas de los elementos que lo componen
y analizando si poseen o representan
determinadas caractersticas en mayor medida que
otras.

Una forma es obteniendo estadsticas descriptivas


de cada grupo. As mismo, es posible utilizar otras
variables de anlisis que no se han considerado en
el proceso de clasificacin de tal manera que
permitan interpretar y extraer conclusiones de cada
grupo, a fin de asignarles algn calificativo o
nombre genrico.
Conglomerados Bietpicos
A diferencia del mtodo jerrquico y el no
jerrquico que agrupan individuos
teniendo en cuenta slo variables
cuantitativas este mtodo permite formar
grupos de objetos considerando variables
cuantitativas y cualitativas.
La calidad de los clster se establece con
la medida de cohesin y separacin.

Вам также может понравиться