Академический Документы
Профессиональный Документы
Культура Документы
(clustering)
Tema 7
Parte terica
Grupos de gentes
Grupos de gentes
Grupos y mercadeo
Algoritmos de deteccin de
grupos
Algoritmo de k-medias
El ms comnmente utilizado
Desarrollado por J.B. MacQueen en
1967
Genera k grupos o clusters de objetos
10
Algoritmo de k-medias
11
12
13
14
15
Proceso iterativo
16
Nmero de grupos
17
18
Similitud, asociacin y
distancia
Objetos
Entidades
Registros
Tuples
X11 ....
.
.
.
.
Xi1 ....
.
.
.
.
Xn1 ....
X1f ...
.
.
.
.
Xif ...
.
.
.
.
Xnf ...
X1p
.
.
Xip
.
.
Xnp
19
Similitud, asociacin y
distancia
Mtricas de distancia
d
d
d
d
(X,Y)
(X,Y)
(X,Y)
(X,Y)
=
=
0
0, X = Y
d (Y,X)
d (X,Z) + d (Z,Y)
Minera de Datos
Dr. Francisco J. Mata
20
Medidas de distancia
Euclideana:
Manhattan:
Minkowski:
21
22
Procedimiento de
normalizacin de los datos
mf =media de la variable f
sf=desviacin estndar de la variable f
23
Normalizacin de datos
24
Distancias ponderadas
25
Tipos de variables
26
Categricas:
27
Tratamiento de variables
categricas binarias
Objeto i
Objeto j
1
0
q
r
suma
q+r
s+t
q+s
r+t
suma
q+r+s+t
28
Tratamiento de variables
categricas binarias
29
Tratamiento de variables
categricas binarias
d (i,j) = (r+s)/(q+r+s+t)
d (i,j) = (r+s)/(q+r+s)
30
Ejercicio
Persona
Juan
Mara
Pedro
Sntomas
Exmenes
Fiebre Tos A B C D
S
S
S
No
No
S
P N
P N
N N
N
P
N
N
N
N
31
Respuesta
32
Tratamiento de variables
categricas nominales
d (i,j) = (p-m)/p
m es el nmero de coincidencias
p es el nmero de variables
33
Tratamiento de variables
categricas nominales
Ejercicio
Producto
1
2
3
4
5
d(1,3)=?
Color
Rojo
Verde
Rojo
Amarillo
Azul
d(1,4)=?
Forma
Redondo
Cuadrado
Rectangular
Cuadrado
Asimtrica
d(2,4)=?
Sabor
Dulce
Salado
Dulce
cido
Amargo
d(3,5)=?
34
Tratamiento de variables
categricas nominales
Respuesta
Producto
1
3
4
Forma
Redondo
Rectangular
Cuadrado
Sabor
Dulce
Dulce
cido
d (i,j) = (p-m)/p
Color
Rojo
Rojo
Amarillo
m es el nmero de coincidencias
p es el nmero de variables
d(1,3)=(3-2)/3=0,33
d(1,4)=(3-0)/3=1
Dr. Francisco J. Mata
35
Tratamiento de variables
ordinales (de rango)
36
Tratamiento de variables
ordinales (cont.)
37
Tratamiento de variables
ordinales (cont.)
38
39
40
41
42
43
Estimacin
Maximizacin
Dr. Francisco J. Mata
44
Paso de estimacin
45
46
Paso de maximizacin
47
48
49
50
Clases de algoritmos de
deteccin de grupos
Mtodos de particionamiento
Mtodos jerrquicos:
51
Clases de Algoritmos de
deteccin de grupos (cont.)
52
Mtodos de particionamiento
K-medias
Modelos mixtos gaussianos
53
Mtodos jerrquicos
Aglomerativos:
Divisivos:
54
Ejemplo de mtodos
aglomerativos
Agrupacin
de personas
por edad
Funcin de
distancia:
diferencia de
edades
55
Mtodos jerrquicos
56
57
Mtodos basados en la
densidad
58
Mtodos basados en la
densidad
59
Preparacin de datos
Determinacin del nmero de grupos
Interpretacin de los grupos
60
Preparacin de datos
Valores perdidos
61
Preparacin de datos
Anlisis de correlacin
Anlisis de componentes principales
Dr. Francisco J. Mata
62
Objetivo:
Procedimiento:
Indicadores
63
Total STD
1.00000
Within STD
0.58358
X5
1.00000
0.70214
0.517838
1.073990
X13
1.00000
0.84483
0.302305
0.433290
X15
1.00000
0.55941
0.693936
2.267295
OVER-ALL
1.00000
0.68092
0.546592
1.205518
K=3
R-Square
RSQ/(1-RSQ)
0.666920
2.002280
64
Criterio de agrupamiento
cbico
Valores de CCC mayores que dos o tres indican
buenos grupos;
valores entre 0 y 2 indican grupos potenciales
pero que deben ser evaluados con cuidado.
En este caso valores de CCC son negativos lo que
indica valores extremos.
Como CCC toma un incremento en 3 de valores
mayores a menores de grupos (eje X),
se selecciona tentativamente este nmero
65
66
67
Cluster
1
X4
X5
0.280466657 -0.953149346
X13
0.714086862
X15
0.868975379
1.700924242
0.900060957 -0.052278189
0.790546535
-0.661424429
0.399999715
-0.473951479
-0.810304619
68