Вы находитесь на странице: 1из 51

1

Introduccin al Anlisis
Cluster
2
ndice

Introduccin

Conceptos bsicos
Elementos
Caractersticas de los elementos
Distancias
Particiones
Jerarquas

Modelos de anlisis cluster

Modelo de anlisis cluster jerrquico
Mtodos aglomerativos
Dendograma
El problema del nmero de clusters
Ejemplo
Cuestiones complementarias




3
Introduccin
El problema de la clasificacin
Identificar grupos de individuos/objetos de caractersticas similares
Tipologas
Economa: segmentacin del mercado de consumidores
Biologa: creacin de una sistemtica sobre el mundo vegetal y animal
Medicina: clasificacin de las enfermedades en funcin de su sintomatologa

Definicin de anlisis cluster
Conjunto de tcnicas multivariantes cuyo principal propsito es la agrupacin de
individuos en conglomerados (cluster) basndose en las caractersticas de los
mismos

Cuestiones a tratar
Caractersticas
Similaridad
Modelos a utilizar
El problema del nmero de cluster o conglomerados
Interpretacin de las caractersticas de los cluster





4
Conceptos bsicos
Objetos: son los elementos a clasificar


Caractersticas de los objetos
Escala
Nominal

n i a
i
1 , =
j i
a
,
k j
n i

1
1
=
=
5
Conceptos bsicos
Matriz de datos

Peso Altura
86 1,76
53 1,58
60 1,65
32 31
22 21
12 11
a a
a a
a a
6
Conceptos bsicos
Representacin grfica
de la matriz de datos
7
Conceptos bsicos
Distancia
La distancia es un ndice de disimilaridad que verifica las
siguientes propiedades:

0 ) , ( > b a D
) , ( ) , ( a b D b a D =
0 ) , ( = a a D
) , ( ) , ( ) , ( c b D b a D c a D + s
8
Conceptos bsicos
Existe una gran variedad de distancias;
enumeramos unicamente las ms
habituales
Distancia eucldea
Distancia eucldea al cuadrado
Distancia de Manhattan
Distancia de correlacin de Pearson

9
Conceptos bsicos
Distancia eucldea

2
22 12
2
21 11 2 1
) ( ) ( ) , ( a a a a a a D + =

=
j
j j
a a a a D
2
, 2 , 1 2 1
) ( ) , (
10
Conceptos bsicos
2 2
c b a + =
11

Matriz de distancias
,000 33,000 26,000
33,000 ,000 7,000
26,000 7,000 ,000
Caso
1:Jose
2:Angeles
3:Conchita
1:Jose 2:Angeles 3:Conchita
distancia eucldea
Esta es una matriz de disimilaridades
Conceptos bsicos
12
Conceptos bsicos
Distancia de Manhattan

=
j
j j
a a a a D
, 2 , 1 2 1
) , (
13
Conceptos bsicos

14
Conceptos bsicos
Distancia de correlacin de Pearson
Esta distancia esta basada en el coeficiente de
correlacin de Pearson y por lo tanto hereda todas sus
propiedades.
El coeficiente de correlacin de Pearson mide el grado
de asociacin lineal entre dos objetos, es decir, hasta
que punto dos objetos son proporcionales.
A diferencia de otras medidas, este coeficiente no se
ve afectado por las escalas de medidas utilizadas.
El recorrido de este coeficiente vara entre -1 y 1
(1 indica una relacin proporcional perfecta).


15
Conceptos bsicos
La estandarizacin de variables.
Debido a la propia definicin de distancia se
deduce que sta va a ser sensible a los cambios
de escala, es decir, va a ser afectada por las
unidades de medida que hemos utilizado para
medir las caractersticas de los elementos.
Si los rangos de las distintas caractersticas son
dispares el clculo de las distancias se vera
seriamente afectado.


16
Conceptos bsicos
(86-60)^2=676
(1,76-1,65)^2=0,01
001 . 26 01 . 0 676 = +
17
Conceptos bsicos

18
Conceptos bsicos
El problema de utilizar variables con distinto
recorrido.

-Homogeneizar las escalas en el intervalo 0-1.







) min( ) max(
) min(
*, *,
*, ,
'
,
j j
j j i
j i
a a
a a
a

=
19
Conceptos bsicos
86 1,76
53 1,58
60 1,65
1,00 1,00
0,00 0,00
0,21 0,39
Descriptive Statistics
3 33,00 53,00 86,00 66,3333
3 ,18 1,58 1,76 1,6633
3 1,00 ,00 1,00 ,4033
3 1,00 ,00 1,00 ,4633
3
peso
Al tura
npeso
nal tura
Vali d N (l i stwi se)
N Range Mini mum Maximum Mean
20
Conceptos bsicos
Estandarizar variables

Realizar una transformacin de forma que las variables
transformadas tengan media 0 y varianza 1.


) (
) (
*,
*, ,

,
j
j j i
j i
a
a media a
a
o

=
21
Conceptos bsicos
86 1,76
53 1,58
60 1,65
1,13 1,07
-0,77 -0,92
-0,36 -0,15
Descriptive Statistics
3 33,00 53,00 86,00 66,3333 17,38774
3 ,18 1,58 1,76 1,6633 ,09074
3 1,89789 -,76682 1,13107 ,0000000 1,00000000
3 1,98374 -,91840 1,06534 ,0000000 1,00000000
3
peso
Al tura
Zpeso Zscore(peso)
ZAltura Zscore(Al tura)
Vali d N (li stwi se)
N Range Mini mum Maximum Mean Std. Devi ation
22

Particin
Sea A un conjunto finito, consideramos una clase
de subconjuntos de A, denominada H:

H es una particin de A si se verifica:

L i H
i
1 , =

i
i
j i
A H
H H
=
=|
Conceptos bsicos
23
Croacia
Georgia
India
Italia
Japn
Lbano
Libia
Marruecos
Paraguay
Tanzania
4
0
5
0
6
0
7
0
8
0
e
s
p
e
r
a
n
z
a

d
e

v
i
d
a

m
a
s
c
u
l
i
n
a
0 5000 10000 15000 20000
producto interior bruto per-capita
24

25
Conceptos bsicos
Jerarqua
Dado un conjunto finito A, consideramos una
clase H de subconjuntos de A.

Se dice que H es una jerarqua de A si:


{ } | , , , ,
'
h h h h H h h
'
e e
'

{ } { } | , , : , h h h H h h H h e c
'
e
' '
e
26
Conceptos bsicos
Jerarqua

Austria
Alemania
Noruega
Suecia

Austria
Alemania
Suecia
Noruega
Austria Alemania Suecia Noruega
27
Conceptos bsicos


28
Modelos de anlisis cluster
Mtodos de agrupacin jerrquica.

1. Se establecen n agrupamientos. Cada
agrupamiento contiene exactamente un elemento.
2. Se agrupan los dos cluster ms cercanos formando
un nico cluster.
3. Se recalcula la matriz de distancias.
4. Pasamos al punto 1.

Este algoritmo realiza exactamente n-1
iteraciones.




29
Mtodos de agrupacin jerrquica
30
Mtodos de agrupacin jerrquica
31
Mtodos de agrupacin jerrquica
32
Mtodos de agrupacin jerrquica
33
Mtodos de agrupacin jerrquica
Ventajas del modelo de agrupacin
jerrquica.
1. No requiere hacer inferencias sobre el nmero de
cluster.
2. Permite representar las sucesivas agrupaciones en
forma de rbol (dendograma).
Inconvenientes
1. Alto coste computacional.
2. Sensible respecto de las primeras agrupaciones.
3. Complicado de interpretar cuando el nmero de
elementos a clasificar es grande.



34
Mtodos de agrupacin
no jerrquica
1. Se determina a priori el nmero de clusters que se
desea construir (k).
2. Se establece una configuracin aleatoria de los
centros de estos clusters, estos centros se
denominan centroides.
3. Los elementos se asignan al cluster cuyo centroide
est ms cerca.
4. Se recalculan (actualizan) nuevamente los
centroides en funcin de los elementos que les han
sido asignados
5. Se repite el algoritmo desde el paso 3, hasta que
los centroides dejan de cambiar.


35
Mtodos de agrupacin
no jerrquica
36
Mtodos de agrupacin
no jerrquica
37
Mtodos de agrupacin
no jerrquica
Ventajas del anlisis cluster no jerrquico.
1. Rapidez.
2. Permite el procesamiento de gran nmero de datos.
Inconvenientes
1. Hay que determinar el nmero ptimo de cluster a
priori.
2. Muy sensible ante la presencia de datos extremos.
3. Slo se pueden utilizar medidas eucldeas.
4. Sensible respecto de la ordenacin de los datos.


38
Anlisis cluster jerrquico
Fases de un anlisis cluster jerrquico.
1. Determinar qu caractersticas vamos a utilizar para
comparar los elementos a clasificar.
2. Considerar la conveniencia de estandarizar o no
dichas caractersticas.
3. Determinar qu distancia debemos utilizar para
medir la similaridad entre elementos.
4. Fijar el mtodo de conglomeracin.
5. Examinar el dendograma para determinar el nmero
ptimo de agrupaciones.
6. Estudio e interpretacin de la particin obtenida.
7. Verificar la estabilidad de la solucin.

39
Anlisis cluster jerrquico
Mtodos de conglomeracin
Vecino ms cercano.
Vecino ms lejano.
Centroide
Vinculacin intergrupos


40
Anlisis cluster jerrquico
Vecino ms cercano.
La distancia entre dos conglomerados se
define como la distancia (en la mtrica
considerada) de los dos elementos ms
cercanos.
Este mtodo tiende a maximizar lo conexo.


41
Anlisis cluster jerrquico

42
Anlisis cluster jerrquico
Vecino ms lejano.
La distancia entre dos conglomerados se
define como aqulla entre los elementos ms
alejados.
Este mtodo tiende a minimizar las distancias
dentro de los conglomerados.


43
Anlisis cluster jerrquico
Mtodo del centroide.
La distancia entre dos cluster se define
como la distancia entre las medias
(centroides) de los mismos.


44
Anlisis cluster jerrquico

45
Anlisis cluster jerrquico
Vinculacin entre grupos
Se define la distancia entre dos clusters
como el promedio de las distancias entre
todos los pares de elementos de los dos
conglomerados.

46
Anlisis cluster jerrquico

47
Anlisis cluster jerrquico
Dendograma
El dendograma es un diagrama con estructura
de rbol binario que muestra las fusiones de los
elementos en cada paso del procedimiento
jerrquico.
El dendograma se representa por medio de dos
ejes perpendiculares. En uno de ellos se
representan los elementos a clasificar, en el otro
eje se representan las distancias a la que se
van juntando los elementos.
48
Anlisis cluster jerrquico

49
Anlisis cluster jerrquico
El problema del nmero de clusters.
No existe ningn criterio general que nos
permita determinar el nmero ptimo de
clusters, pues influyen factores como el nmero
de elementos con valores extremos, las
distribuciones que siguen las variables etc.
Una forma de determinar el nmero ptimo de
cluster es examinar atentamente el historial del
algoritmo de aglomeracin y el dendograma del
mismo.
Un factor a tener muy en cuenta es el tamao
de los clusters resultantes.

50
Anlisis cluster jerrquico

51
Anlisis cluster jerrquico

Вам также может понравиться