Вы находитесь на странице: 1из 15

Anlisis Cluster

Se usa para definir grupos homogneos


de objetos (individuos, firmas, productos,
incluso comportamiento).
Encontrar una estructura natural a
travs de las observaciones basndose en
un perfil multivariado.

ANALISIS CLUSTER
CLUSTER = Grupo, Conglomerado,
Racimo, Apiarse, etc.
ANALISIS CLUSTER = Taxonoma
numrica, Conglomerados, Anlisis
Tipolgico, Clasificacin Automtica, etc.
La diferencia con Discriminante es que el
Discriminante se conoce a priori el grupo
de pertenencia.

Anlisis Cluster
Es una clase de tcnicas utilizadas
para clasificar casos en grupos que
son relativamente homogneos
dentro de si mismos y heterogneos
entre ellos, sobre la base de un
conjunto definido de variables.
Estos grupos se llaman Clusters o
Conglomerados.

Anlisis cluster?
No hace distincin entre
variables dependientes
independientes, sino que
calcula relaciones
interdependientes de todo
el conjunto de valores.

Anlisis Cluster e
Investigacin de mercados
Segmentacin de Mercados. Agrupamiento de
consumidores de acuerdo a sus preferencias de
atributos
Comprender el comportamiento de los
compradores. Los consumidores con similares
comportamientos/caractersticas son agrupados
juntos.
Identificar oportunidades de nuevos productos.
Los clusters de similares marcas/productos pueden
ayudar a identificar competidores/oportunidades de
mercado
Reduccin de los datos. En mapas de preferencias

Etapas de un Anlisis
cluster
1. Seleccionar una medida de
distancia
2. Seleccionar un algoritmo de
agrupamiento
3. Determinar el nmero de clusters
4. Validar el anlisis

REGR factor score 1 for analysis

-1

-2

-3
-4
-3

-2

-1

REGR factor score 2 for analysis

Definicin de la
distancia: La distancia
Eucldea
n

Dij

x
k 1

ki

xkj

Dij distancia entre los casos i y j


xki
valor de la variable Xk para el caso j
Problemas:
Diferentes medidas = diferentes ponderaciones
Correlacin entre variables (redundancia)
Solucin: Anlisis de componentes principales

Procedimientos de
Clustering
Procedimientos jerarquicos

Aglomerativo (comienza desde n


clusters, hasta llegar a obtener 1
cluster)
Divisivo (comienza desde 1 cluster,
hasta obtener n cluster)

Procedimientos no jerarquicos
Cluster de K-medias

Agrupamiento aglomerativo

Agrupamiento
aglomerativo

Mtodos de enlace

Enlace simple (distancia mnima)


Enlace Completo (distancia mxima)
Enlace promedio

Mtodo de Ward

1.
2.

Calcular la suma de las distancias al cuadrado


dentro de los clusters
Agregar clusters con incremento mnimo en la suma
de cuadrados total

Mtodo del centroide

La distancia entre dos clusters se define como la


distancia entre los centroides (medias de los cluster)

Cluster de K-medias
1.
2.

3.

El nmero k de clusters es fijo


Se proporciona un conjunto inicial de k semillas
(centros de agregacin)
K primeros elementos
Otras semillas

Dado un cierto umbral, todas unidades son


asignadas a la ms cercana semilla del grupo
4. Se calculan nuevas semillas
5. Volver a la etapa 3 hasta que no sea necesaria
una reclasificacin
Las unidades pueden ser reasingnadas en etapas
sucesivas (particin ptima)

Mtodos jerarquicos vs
no jerarquicos
Agrupamiento jerarquico
No hay decisin acerca
del nmero de clusters
Existen problemas
cuando los datos
contienen un alto nivel
de error
Puede ser muy lento
La decisin inicial
influye mucho (una
etapa nica)

Agrupamiento no
jerarquico
Ms rpido, ms fable
Es necesario especificar el
nmero de clusters
(arbitrario)
Es necesario establecer la
semilla inicial (arbitrario)

Mtodo sugerido
1. Primero ejecutar un mtodo
jerrquico para definir el nmero
de clusters
2. Luego utilizar el procedimiento kmedias para formar los clusters

REG R factor score 4 for analysis

Cluster Number of Ca
0

6
5

-1
4
3

-2

2
-3

1
-3

-2

-1

REGR factor score

1 for analysis

Вам также может понравиться