Вы находитесь на странице: 1из 15

Universidad Nacional Agraria La Molina Programa de Doctorado en Agricultura Sustentable Mtodos Avanzados de Anlisis de Datos An

Unidad II
Anlisis Cluster

Mg. Jess Salinas Flores Mg. Jes

jsalinas@lamolina.edu.pe

Ejemplo (Uriel, 2006):


El responsable de marketing tiene una BDD con las caractersticas sociodemogrficas de sus clientes: edad, nivel educativo, nivel de ingresos, estado civil, ocupacin, nmero de hijos, etc. Se plantea si pudiera dividir a sus clientes en subgrupos que tuvieran caractersticas sociodemogrficas similares entre s, pero que fueran lo ms diferentes posible unos subgrupos de otros. Si fuera posible, se podra disear campaas de publicidad distintas para cada grupo, con creatividades diferentes o utilizando diarios, revistas o cadenas de televisin distintas segn el grupo al que fuera dirigida la campaa 3

Introduccin
El anlisis cluster es una tcnica diseada para clasificar tantas observaciones en grupos de tal forma que: Cada grupo (conglomerado o cluster) sea homogneo respecto a las variables utilizadas para caracterizarlos; es decir, que cada observacin contenida en l sea parecida a todas las que estn incluidas en ese grupo. Que los grupos sean lo ms distintos posible unos de otros respecto a las variables consideradas.
4

Clasificacin de los mtodos cluster


Divisivos Mtodos Jerrquicos Jer Aglomerativos Mtodos Cluster Reasignacin Reasignaci Bsqueda de la densidad Directos Reduccin de dimensiones Reducci
5

Cmo realizar el anlisis cluster? (Jerrquico Aglomerativo)

Mtodos No Jerrquicos Jer

Procedimiento del ACJA


1.

Procedimiento del ACJA


3.

2.

Se tienen n observaciones (individuos, empresas, etc.) de los que se tiene informacin sobre p variables (edad, estado civil, nmero de hijos, etc) Se establece un indicador que nos diga en qu medida cada par de observaciones se parece entre s. A este medida se le denomina distancia o similaridad.

4.

Se crean grupos, de forma que cada grupo contenga aquellas observaciones que ms se parezcan entre s. Hay dos tipos de AC: jerrquico y no jerrquico. A su vez, en cada tipo se pueden utilizar distintos mtodos de agrupacin y conglomeracin. Se debe describir los grupos que se ha obtenido y compararlos unos con los otros. Para ello bastar con ver qu valores promedio toman las p variables utilizadas en el AC en cada uno de los g grupos obtenidos (g n)
8

Procedimiento del Anlisis Cluster

Medidas de distancia
Distancia euclidiana: es la raz cuadrada de la suma de las diferencias al cuadrado entre los dos elementos en la variable o variables consideradas
D(X, Y) =

(X
i

Yi )2

Distancia euclidiana al cuadrado


D 2 (X, Y) =

Distancia mtrica de Chebychev: es la referencia mxima en valores absolutos entre los valores de los elementos
D(X, Y) = Max i Xi Yi
9 10

(X

Yi )2

Estandarizacin de los datos


Las medidas de similaridad son muy sensibles a las unidades que estn medidas dichas variables. Para evitar esta influencia no deseable de una variable debida exclusivamente a la unidad en que viene medida, es necesario corregir el efecto de los datos recurriendo a un proceso de estandarizacin.
Puntuaciones Z

Formacin de los grupos: anlisis cluster jerrquico


Una vez que mediante la matriz de distancias, se sabe que observaciones estn ms prximas entre s, y ms distantes de otras, es necesario formar los grupos. Ello implica tomar dos decisiones: Seleccin del algoritmo de agrupacin que se elige Determinacin de un nmero de grupos o clusters.
12

Zi =

Xi X Si

11

Algoritmos de Agrupamiento
Mtodo del vecino ms cercano (vinculacin simple) Mtodo del vecino ms lejano (vinculacin completa) Mtodo de la vinculacin promedio o intergrupos Mtodo del centroide (vinculacin de centroides) Mtodo de Ward

Mtodos de Enlace o Agrupamiento

13

14

X1

X2 2 1 1 4 5 3
(A,B) (A,B) C D E F 0 2 4.24 3.61 2.24 C 2 0 3.16 4.12 2.24 D 4.24 3.16 0 2.24 2.24 E 3.61 4.12 2.24 0 2 F 2.24 2.24 2.24 2 0

Ejemplo:

A B C D E F

1 2 4 5 3 3

A B C D E F

A 0 1.41 3.16 4.47 3.61 2.24

B 1.41 0 2 4.24 4.12 2.24

C 3.16 2 0 3.16 4.12 2.24

D 4.47 4.24 3.16 0 2.24 2.24

E 3.61 4.12 4.12 2.24 0 2

F 2.24 2.24 2.24 2.24 2 0

(A,B) (A,B) C D (E,F)


15

C 2 0 3.16 2.24

D 4.24 3.16 0 2.24

(E,F) 2.24 2.24 2.24 0


16

0 2 4.24 2.24

Salida con el SPSS


(A,B,C) (A,B,C) D (E,F) 0 3,16 2.24 D 3,16 0 2.24 (E,F) 2.24 2.24 0
Stage 1 2 3 4 5 Agglomeration Schedule Cluster Combined Cluster 1 Cluster 2 1 2 5 6 1 3 4 5 1 4 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 1 0 0 2 3 4 Coefficients 1,414 2,000 2,000 2,236 2,236 Next Stage 3 4 5 5 0

* * * * * * H I E R A R C H I C A L Dendrogram using Single Linkage

C L U S T E R

A N A L Y S I S * * * * * *

(A,B,C,E,F) (A,B,C,E,F) D 0 2,24

D 2,24 0

Rescaled Distance Cluster Combine C A S E Label Num A B C E F D


17

0 5 10 15 20 25 +---------+---------+---------+---------+---------+
18

1 2 3 5 6 4

Seleccin del nmero de conglomerados de la solucin


El SPSS slo ofrece el dendograma como herramienta de apoyo Debe detenerse el proceso de fusin cuando los grupos que se han de unir estn a una distancia significativamente mayor de los que previamente se han fusionado. Se debe realizar el clculo de las tasas de variacin entre los coeficientes de aglomeracin obtenidos entre etapas sucesivas. Cuando una tasa de variacin sea drsticamente superior a la anterior, ser el momento de detener las fusiones.
19

Otros indicadores
Raz cuadrada de la media de las desviaciones tpicas del nuevo conglomerado (RMSSTD) R2 semiparcial (SPR) R cuadrado (RS) Distancia entre los conglomerados (DC)
20

Utilizacin de los indicadores Utilizaci


Estadstico Estad Concepto Medido Comentarios

Anlisis cluster no jerrquico


Es aquel donde se conoce a priori el nmero de grupos k que se desea, y las observaciones son asignadas a cada uno de esos k clusters de forma tal que maximiza la homogeneidad de los sujetos asignados a un mismo grupo y la heterogeneidad entre los distintos clusters.
22

RMSSTD Homogeneidad del nuevo conglomerado SPR Homogeneidad de los conglomerados fusionados RS Heterogeneidad entre conglomerados CD Homogeneidad de los conglomerados fusionados

El valor debe ser pequeo El valor debe ser pequeo El valor debe ser grande El valor debe ser pequeo
21

Procedimiento del anlisis cluster no jerrquico an jer Se determinan los centroides iniciales de los k grupos, estos es, los valores medios de las variables que caracterizan las observaciones en cada uno de esos grupos. Estos centroides se conocen como semillas. Cada observacin se asigna a aquel cluster, de entre los k existentes, cuyo centroide est ms cercano a esa observacin en trminos de distancia eucldea. Se recalculan los centroides de los k grupos de acuerdo con las observaciones que han sido clasificadas en casa uno de ellos. Si el cambio en los centroides es mayor que un valor criterio de convergencia preestablecido, se vuelve al paso 2, finalizando el proceso cuando se cumpla el criterio de convergencia o se supere un nmero prefijado de 23 iteraciones.

Aplicaciones del anlisis cluster


Segmentacin de mercados Posicionamiento de marcas Nuevos productos Seleccin de medios publicitarios

24

Segmentacin de Mercados
La finalidad del AC es descubrir, entre los consumidores, grupos de individuos (segmentos), cuyos comportamientos, actitudes y hbitos sean similares; con el objeto de poder disear estrategias que se adapten perfectamente a cada uno de los segmentos de la poblacin estudiada

Posicionamiento de Productos
El AC se realiza con el fin de poder reagruparlos, en un cierto nmero de clases o tipos, en funcin de la actitud de los consumidores ante los mismos. El conocimiento de estos tipos permite, para cada marca, aislar a sus competidores y modificar su poltica comercial en consecuencia.
26

25

Campo de publicidad
El AC se realiza con el fin de poder obtener grupos de medios (peridicos, revistas, programas de TV, etc.) similares en cuanto a su audiencia. El AC se aplica para obtener temas publicitarios en funcin de similitudes semnticas percibidas por los entrevistados entre las diversas palabras que describen a un producto.
27

Ejemplo de Aplicacin
A este grupo de personas que tenemos aqu

les mediremos una serie de atributos de tipo mtrico, y conforme a estos atributos vamos a clasificar, o distribuir, a estas personas (o entidades muestrales) en grupos o categoras de tal forma que dentro de cada grupo las unidades muestrales sean lo ms homognea posible, y entre los grupos estas unidades, comparativamente, sean lo ms heterognea posibles.
28

La informacin que requeriremos de estas 21 personas es la siguiente

Atributos
Salir de compras es divertido Salir de compras afecta el presupuesto Al salir de compras aprovecho de comer fuera Al salir a comprar trato de hacer las mejores No me importa salir de compras Al salir de compra voy a ahorrar si comparo precios.
29

Variables divertido presupuesto aprovecho buenacompra noimporta ahorro


30

Salir de compras es divertido Salir de compras afecta el presupuesto Al salir de compras aprovecho de comer fuera Al salir a comprar trato de hacer las mejores No me importa salir de compras Al salir de compra voy a ahorrar si comparo precios.

De una escala del 1 al 7, donde 1 es desacuerdo y 7 de acuerdo, de su grado de conformidad a las siguientes aseveraciones

Los datos obtenidos son los siguientes:

Debemos definir una medida de similitud, puesto que esta medida de similitud nos puede entregar una pauta para formar conglomerados (cluster) homogneos.

Qu distancia hay entre el caso i y el caso j?

31

32

La distancia eucldea entre el caso 1 y el caso 2 es: [(6 2)2 + (4 3)2 + (7 1)2 + (3 4)2 + (2 5)2 + (3 4)2]1/2 = 8 Vamos a resolver nuestro problema original de las personas que van de compras

Nota: se pueden utilizar otras distancias. A menor distancia mayor similaridad

33

34

Vamos a resolver nuestro problema original de las personas que van de compras

En el software se eligen estas dos opciones como estudio preliminar en las opciones estadsticos y Mtodo

Se seleccionan las variables mtricas de manera habitual en el software


35 36

Agglomeration Schedule Cluster Combined Cluster 1 Cluster 2 14 16 6 7 12 21 2 13 5 11 3 8 6 12 4 14 5 9 1 6 4 19 5 20 1 17 2 5 1 3 4 10 1 15 4 18 2 4 1 2 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 0 0 0 2 3 0 1 5 0 0 7 8 0 9 0 10 0 4 12 13 6 11 0 15 0 16 0 14 18 17 19

Agglomeration Schedule Cluster Combined Cluster 1 Cluster 2 14 16 6 7 12 21 2 13 5 11 3 8 6 12 4 14 5 9 1 6 4 19 5 20 1 17 2 5 1 3 4 10 1 15 4 18 2 4 1 2 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 0 0 0 2 3 0 1 5 0 0 7 8 0 9 0 10 0 4 12 13 6 11 0 15 0 16 0 14 18 17 19

Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Coefficients 2,000 2,000 3,000 3,000 3,000 3,000 3,500 4,000 4,500 5,750 7,000 7,333 8,000 10,750 11,667 11,750 14,125 22,600 37,944 46,389

Next Stage 8 7 7 14 9 15 10 11 12 13 16 14 15 19 17 18 20 19 20 0

Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Coefficients 2,000 2,000 3,000 3,000 3,000 3,000 3,500 4,000 4,500 5,750 7,000 7,333 8,000 10,750 11,667 11,750 14,125 22,600 37,944 46,389

Next Stage 8 7 7 14 9 15 10 11 12 13 16 14 15 19 17 18 20 19 20 0

Los casos 5 y 11 se unen en un conglomerado en la etapa 5

Esta tabla muestra como los casos son aglomerados en cada etapa del anlisis de cluster.

37

38

Agglomeration Schedule Cluster Combined Cluster 1 Cluster 2 14 16 6 7 12 21 2 13 5 11 3 8 6 12 4 14 5 9 1 6 4 19 5 20 1 17 2 5 1 3 4 10 1 15 4 18 2 4 1 2 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 0 0 0 2 3 0 1 5 0 0 7 8 0 9 0 10 0 4 12 13 6 11 0 15 0 16 0 14 18 17 19

Agglomeration Schedule Cluster Combined Cluster 1 Cluster 2 14 16 6 7 12 21 2 13 5 11 3 8 6 12 4 14 5 9 1 6 4 19 5 20 1 17 2 5 1 3 4 10 1 15 4 18 2 4 1 2 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 0 0 0 2 3 0 1 5 0 0 7 8 0 9 0 10 0 4 12 13 6 11 0 15 0 16 0 14 18 17 19

Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Coefficients 2,000 2,000 3,000 3,000 3,000 3,000 3,500 4,000 4,500 5,750 7,000 7,333 8,000 10,750 11,667 11,750 14,125 22,600 37,944 46,389

Next Stage 8 7 7 14 9 15 10 11 12 13 16 14 15 19 17 18 20 19 20 0

Cuando conglomerados o casos son unidos, el nuevo cluster es etiquetado con el nmero menor de etiqueta de los dos cluster.

Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Coefficients 2,000 2,000 3,000 3,000 3,000 3,000 3,500 4,000 4,500 5,750 7,000 7,333 8,000 10,750 11,667 11,750 14,125 22,600 37,944 46,389

Next Stage 8 7 7 14 9 15 10 11 12 13 16 14 15 19 17 18 20 19 20 0

La columna de coeficientes indica la distancia entre los dos cluster o casos en cada etapa. La distancia es la elegida segn el mtodo

39

40

Agglomeration Schedule Cluster Combined Cluster 1 Cluster 2 14 16 6 7 12 21 2 13 5 11 3 8 6 12 4 14 5 9 1 6 4 19 5 20 1 17 2 5 1 3 4 10 1 15 4 18 2 4 1 2 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 0 0 0 2 3 0 1 5 0 0 7 8 0 9 0 10 0 4 12 13 6 11 0 15 0 16 0 14 18 17 19
Agglomeration Schedule

Tres cluster permanecen despus de la etapa 18. Lo indicado es formar 3 cluster como solucin

Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Coefficients 2,000 2,000 3,000 3,000 3,000 3,000 3,500 4,000 4,500 5,750 7,000 7,333 8,000 10,750 11,667 11,750 14,125 22,600 37,944 46,389

Next Stage 8 7 7 14 9 15 10 11 12 13 16 14 15 19 17 18 20 19 20 0

Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Cluster Combined Cluster 1 Cluster 2 14 16 6 7 12 21 2 13 5 11 3 8 6 12 4 14 5 9 1 6 4 19 5 20 1 17 2 5 1 3 4 10 1 15 4 18 2 4 1 2

Coefficients 2,000 2,000 3,000 3,000 3,000 3,000 3,500 4,000 4,500 5,750 7,000 7,333 8,000 10,750 11,667 11,750 14,125 22,600 37,944 46,389

Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 0 0 0 2 3 0 1 5 0 0 7 8 0 9 0 10 0 4 12 13 6 11 0 15 0 16 0 14 18 17 19

Next Stage 8 7 7 14 9 15 10 11 12 13 16 14 15 19 17 18 20 19 20 0

Esta parte de la tabla muestra la etapa en que aparece por primera vez un cluster. Y los valores 0 indican que el cluster es an un caso

Aqu hay un salto sbito en la creacin de un nuevo cluster

buena solucin
41

El cluster 6 (que ya no es un caso) apareci por primera vez en la etapa 2, y volver a aparecer en la etapa 10.
42

Conglomerado de pertenencia 3 conglome rados 1 2 1 3 2 1 1 1 2 3 2 1 2 3 1 3 1 3 3 2 1


* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *

Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Ahora, si hemos decidido formar tres cluster o conglomerados, dando las instrucciones pertinentes al software deber aparecer esta solucin de pertenencia.

Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num 14 16 0 5 10 15 20 25 +---------+---------+---------+---------+---------+

Esto es, las personas que tienen las etiquetas {1, 3, 6, 7, 8, 12, 15, 17 y 21} pertenecen al conglomerado 1. Las personas etiquetadas con {2, 5, 9, 11, 13, y 20} pertenecen al conglomerado 2. Y las personas etiquetadas con {4,10,14,16,18 y 19} pertenecen al conglomerado 3.

El dendograma o diagrama de rbol muestra la similitud relativa entre los casos

4 19 10 18 2 13 5 11 9 20 3 8 6 7 12 21 1 17 15

43

44

* * * H I E R A R C H I C A L * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num 14 16 4 19 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ C A S E Label Num 14 16 4 19 10 18 2 13 5 11 9 20 3 8 6 7 12 21 1 17 15

C L U S T E R

A N A L Y S I S * * *

Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine 0 5 10 15 20 25 +---------+---------+---------+---------+---------+

Aqu hay similitud

Note como las ramas se unen a medida que uno mira de izquierda a derecha

10 18 2 13 5 11 9 20 3 8 6 7 12 21 1 17 15

Las lneas verticales que unen los casos denotan similitud, cuando estas estn a la izquierda

45

46

* * * H I E R A R C H I C A L

C L U S T E R

A N A L Y S I S * * *

* * * H I E R A R C H I C A L

C L U S T E R

A N A L Y S I S * * *

Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num 14 16 4 19 0 5 10 15 20 25 +---------+---------+---------+---------+---------+

Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num 14 0 5 10 15 20 25 +---------+---------+---------+---------+---------+

Aqu no hay similitud

Las lneas verticales que unen los casos no describen similitud, cuando estas estn a la derecha del dendrograma

10 18 2 13 5 11 9 20 3 8 6 7 12 21 1 17 15

Las distancias entre cluster estn escaladas convenientemente de 0 a 25 en este dendograma

16 4 19 10 18 2 13 5 11 9 20 3 8 6 7 12 21 1 17 15

47

48

* * * H I E R A R C H I C A L

C L U S T E R

A N A L Y S I S * * *

Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num 14 16 4 19 10 18 2 13 5 11 9 20 3 8 6 7 12 21 1 17 15 0 5 10 15 20 25 +---------+---------+---------+---------+---------+

Caracterizacin de los clusters


Cluster 1 Cluster 2 Cluster 3 Total divertid Promedio 5,667 1,667 3,500 3,905 presupu Promedio 3,667 3,000 5,500 4,000 aprovech Promedio 6,000 1,833 3,333 4,048 buenacom Promedio 3,222 3,500 6,000 4,095 noimport Promedio 2,000 5,500 3,500 3,429 ahorro Promedio 4,000 3,333 6,000 4,381

A la distancia indicada formamos tres cluster que no son similares entre s

49

50

Caracterizacin de los clusters Caracterizaci


7 6 5 M dias e 4 3 2 1 0 div ertid presupu aprov ech buenacom Variables noimport ahorro

Divertidos innovadores

Pasan de todo Les da lo mismo 8 que 80

Cuidan presupuesto Buscan mejor compra

Lujuriosos

Indiferentes

Ahorradores

10

1. Los casos del cluster 1 tienen valores altos en las variables divertid, aprovech, medios en las variables presupu, buenacom, ahorro y bajo en noimport. 2. Los casos del cluster 2 tienen valores altos slo en la variables noimport, medios en las variables presupu, buenacom, ahorro y bajo en divertid, aprovech. 3. Los casos del cluster 3 tienen valores altos en las variables presupu, buenacom, ahorro, medios en las variables divertid, aprovech, noimport y no tiene valores bajos.
51

11

12

13

14

15

16

17

18

19

20

21 52

Ejemplo N 3
Lujuriosos

Indiferentes

Ahorradores

La Unin Europea ha decidido la incorporacin de nuevos miembros para el ao 2004. En concreto: Letonia, Estonia, Lituania, Polonia, Repblica Checa. Eslovaquia y Hungra. Tomando una serie de variables representativas se pretende agrupar a estos pases:
54

53

Ejemplo N 4
Id Pases PIB Inflacin Desempleo Coches (x1000 habitantes) Salario medio por hora 1.9 3.0 2.3 3.6 3.2 2.5 2.9 Usuarios internet (%)

1 2 3 4 5 6 7

Letonia Estonia Lituania Polonia Repblica Checa Eslovaquia Hungra

3300 3800 3300 4400 5400 3900 4900

3.4 4.4 1.3 3.5 3.9 4.2 6.2

8.2 6.5 12.9 18.1 9.3 19.7 5.6

235 339 317 259 362 236 235

7 30 7 10 14 12 15

Se cuenta con informacin de 18 capitales de pases sobre:


% % % % % % de de de de de de hogares hogares hogares hogares hogares hogares que que que que que que poseen poseen poseen poseen poseen poseen automvil TV DVD microondas secadora telfono
56

55

Bibliografa
1.

2.

3.

Hair-Anderson-Tatham-Blanck. Anlisis Multivariante. Prentice Hall. Quinta Edicin. 1999. Mxico. Catena, Andrs & otros. Anlisis Multivariado. Un manual para investigadores. Biblioteca Nueva. 2003. Landero & Otros. Estadstica con SPSS y Metodologa de la Investigacin. Editorial Trillas. 2006. Mxico.

57

Вам также может понравиться