Tema 7 Teoria

Deteccin automtica de grupos
(clustering)
Tema 7
Parte terica
Dr. Francisco J. Mata
Encontrar patrones en los datos
Dividir el conjunto de datos en segmentos o grupos

de acuerdo con un concepto de similitud
Tcnica de minera de datos de

aprendizaje sin supervisin
Aprendizaje por observacin en lugar de
por casos
Requiere inteligencia humana para
interpretar resultados
Luminosidad y temperatura de las

estrellas
Grupos de gentes
Grupos de gentes
Forma usual de segmentar gente es a

travs de reglas de negocio basadas en
el sentido comn
permite agrupar a la gente
directamente en sus caractersticas
(datos)
Grupos y mercadeo
Grupos y medidas de uniformes
Algoritmos de deteccin de
grupos
Tambin conocidos como algoritmos de

agrupacin o de cluster analysis
Utilizan el concepto de asociacin entre
entidades sobre la base de similitud
La similitud se mide en trminos de
distancia
Algoritmo de k-medias
El ms comnmente utilizado
Desarrollado por J.B. MacQueen en
1967
Genera k grupos o clusters de objetos
10
Algoritmo de k-medias
Asume una representacin geomtrica

de los datos
Registros o tuples son puntos en un

espacio de datos n-dimensional
Asume que hay K grupos
11
Seleccin de K semillas al azar
12
Asignacin de los puntos al

centroide ms cercano
13
Clculo de centroides para los

grupos
14
Nueva asignacin de grupos
15
Proceso iterativo
Proceso se repite iterativamente hasta

que se encuentran grupos que son
estables
16
Nmero de grupos
Si no existe razn para asumir un

nmero particular de grupos, se puede
utilizar varios valores de K y evaluar los
resultados obtenidos
El valor de K con que se obtiene la menor

varianza promedio
17
Similitud, asociacin y distancia
K-medias es un algoritmo de deteccin

de grupos basado en distancia
Otros algoritmos utilizan el concepto de
densidad (distribucin de probabilidad)
18
Similitud, asociacin y
distancia
Calculada sobre una matriz de datos

Variables, Atributos, Columnas
Objetos
Entidades
Registros
Tuples
X11 ....
.
.
.
.
Xi1 ....
.
.
.
.
Xn1 ....
X1f ...
.
.
.
.
Xif ...
.
.
.
.
Xnf ...
X1p
.
.
Xip
.
.
Xnp
19
Similitud, asociacin y
distancia
Mtricas de distancia
d
d
d
d
(X,Y)
(X,Y)
(X,Y)
(X,Y)
=
=
0
0, X = Y
d (Y,X)
d (X,Z) + d (Z,Y)
Minera de Datos
20
Medidas de distancia
Euclideana:
Manhattan:
d (i,K) = (|xi1 xk1|2 + |xi2 xk2 |2 + ... +

|x1p - xkp|2)1/2
d (i,K) = |xi1 xk1| + |xi2 xk2 | + ... +

|x1p - xkp|
Minkowski:
d (i,K) = (|xi1 xk1|q + |xi2 xk2 |q + ... +

|x1p - xkp|q)1/q
21
Normalizacin de los datos
Unidades de medida pueden afectar los

resultados de los algoritmos de
deteccin de grupos
Para evitar este problema a veces es
conveniente normalizar los datos, es
decir convertirlos a nmeros sin unidad
22
Procedimiento de
normalizacin de los datos
Calcular el valor z correspondiente:
zif = (xif mf) / sf, donde
mf =media de la variable f
sf=desviacin estndar de la variable f
23
Normalizacin de datos
Puede ser ventajosa o no
Se puede determinar que no es

conveniente normalizar los datos
24
Distancias ponderadas
Se puede asignar pesos a las variables

de acuerdo con la importancia percibida
d (i,K) = (w1|xi1 xk1|q + w2|xi2 xk2 |q +...+

wn|x1n - xkn|q)1/q
25
Tipos de variables
Normalizacin y medidas presentadas

slo se pueden utilizar con variables de
intervalo o de radio
Variables de intervalo: permiten medir

distancias
Variables de radio: intervalo medido a
partir de un cero con significado
26
Otros tipos de variable
Categricas:
Binarias: Toman dos valores
Nominales: Lista de valores sin orden
Ejemplo: {femenino, masculino}
Ejemplo: {verde, rojo, amarillo, azul}
Ordinales: Lista de valores con un

orden pero no una distancia
Ejemplos: {psimo, malo, bueno, ptimo}

27
Tratamiento de variables
categricas binarias
Toman slo dos valores

Calcular tabla de contingencia para los
objetos a medir:
Objeto i
Objeto j
1
0
q
r
suma
q+r
s+t
q+s
r+t
suma
q+r+s+t
28
categricas binarias
Distancia depender de si la variable es
Simtrica: si ambas estados conllevan el mismo

valor y por lo tanto llevan el mismo peso
Ejemplo: Gnero {masculino, femenino]
Asimtrica: los estados resultantes no tiene el

mismo peso
Ejemplo: Resultado de una prueba de enfermedad

{positivo, negativo}; por convencin el estado ms
importante o raro se codifica como 1
29
categricas binarias
Distancia variables simtricas

(coeficiente de coincidencia simple):
d (i,j) = (r+s)/(q+r+s+t)
Distancia variables asimtricas

(coeficiente de Jaccard):
d (i,j) = (r+s)/(q+r+s)
30
Ejercicio
Persona
Juan
Mara
Pedro
Sntomas
Exmenes
Fiebre Tos A B C D
S
S
S
No
No
S
P N
P N
N N
N
P
N
N
N
N
Quines tiene ms posibilidad de tener enfermedades

similares y quines enfermedades diferentes?
Calcular las distancias entre cada persona utilizando el coeficiente
de Jaccard considerando los resultados de los sntomas y exmenes
como asimtricos y los valores de S y P como 1
31
Respuesta
d (Juan,Mara) = (0+1)/(2+0+1) = 0.33

d (Juan,Pedro) = (1+1)/(1+1+1) = 0.67
d (Pedro,Mara) = (1+2)/(1+1+2) = 0.75
Juan y Mara tienen ms posibilidad de tener
enfermedades similares y
Pedro y Mara diferentes
32
categricas nominales
Coeficiente de coincidencia simple:
d (i,j) = (p-m)/p
m es el nmero de coincidencias
p es el nmero de variables
33
Ejercicio
Producto
1
2
3
4
5
d(1,3)=?
Color
Rojo
Verde
Rojo
Amarillo
Azul
d(1,4)=?
Forma
Redondo
Cuadrado
Rectangular
Cuadrado
Asimtrica
d(2,4)=?
Sabor
Dulce
Salado
Dulce
cido
Amargo
d(3,5)=?
34
Respuesta
Producto
1
3
4
Forma
Redondo
Rectangular
Cuadrado
Sabor
Dulce
Dulce
cido
d (i,j) = (p-m)/p
Color
Rojo
Rojo
Amarillo
m es el nmero de coincidencias
p es el nmero de variables
d(1,3)=(3-2)/3=0,33
d(1,4)=(3-0)/3=1
35
ordinales (de rango)
Si la variable f tiene Mf valores ordinales

{r1, r2, ... rMf}, ri < rj para i < j,
reemplace cada valor de la variable por
su correspondiente orden (ri i)
36
ordinales (cont.)
Si hay varias variables ordinales con

diferentes nmeros de valores
normalice al intervalo [0,1] para que
cada variable tenga el mismo peso
Sustituya el i-simo valor para el rango de

la variable f como
zif = (i1)/ (Mf1)
37
ordinales (cont.)
Utilice las distancias Euclideana, de

Manhattan o de Minkowski con los
valores zif
38
Variables de Distintos Tipos
39
ngulos entre vectores como

medida de asociacin
Cuando las relaciones entre los

individuos son ms importantes que las
diferencias, el ngulo entre vectores es
una mejor medida de similitud que la
distancia
40
Angulo entre vectores como

medida de asociacin
41
Angulo entre vectores como

medida de asociacin
Uso del seno del ngulo
0 vectores son paralelos

1 vectores son ortogonales
42
Problemas con el algoritmo de kmedias
No funciona bien con grupos que se traslapan

Los grupos son afectados por valores
extremos
Cada registro, tuple o entidad est en un
grupo o no; no existe la nocin de que uno
de ellos pertenezca con mayor o menor
probabilidad al grupo que se le asignado
43
Modelos mixtos gaussianos
Variante probabilstica de K-medias
Los puntos se asumen que estn distribuidos de

acuerdo con una probabilidad gaussiana: n
densidades normales independientes
Igual a K-medias se seleccionan K semillas
Medias de distribuciones gaussianas

Llamadas gaussianos
Algoritmo itera sobre dos pasos
Estimacin
Maximizacin
44
Paso de estimacin
Se calcula la responsabilidad de cada

gaussiano para cada punto de datos
Fuerte para puntos que estn cerca

Dbil para puntos que estn lejanos
Responsabilidades se utilizan como pesos

en el siguiente paso
45
46
Paso de maximizacin
La media de cada gaussiano se mueve

hacia el centroide de todo el conjunto de
datos utilizando la ponderacin de las
responsabilidades para cada punto
47
Los pasos de estimacin y maximizacin

se repiten hasta que no se pueden
cambiar los gaussianos
48
Se les denomina a veces como

agrupacin suave
Cada punto tiene una probabilidad de

pertenecer a cada uno de los K grupos
Se asigna al grupo que tiene ms probabilidad
49

Probabilidad
de pertenecer
a un grupo
50
Clases de algoritmos de
deteccin de grupos
Mtodos de particionamiento
Mtodos jerrquicos:
Dividen el conjunto de datos en K grupos

Crean una descomposicin jerrquica del conjunto
de datos
Mtodos basados en la densidad:
Un grupo puede crecer en tanto su densidad en el

vecindario exceda un valor dado (threshold)
51
Clases de Algoritmos de
deteccin de grupos (cont.)
Mtodos basados en mallas:
Cuantifican el espacio de objetos en un

nmero finito de celdas que forman un
estructura de malla
Mtodos basados en modelos:
Hipotetizan un modelo para cada grupo y

encuentran el mejor ajuste de los datos a
este modelo
52
Mtodos de particionamiento
K-medias
53
Mtodos jerrquicos
Aglomerativos:
De abajo hacia arriba
Cada objeto empieza en su propio grupo
Divisivos:
De arriba hacia abajo
Se empieza con todos los objetos en un solo

grupo
54
Ejemplo de mtodos
aglomerativos
Agrupacin
de personas
por edad
Funcin de
distancia:
diferencia de
edades
55
Mtodos jerrquicos
Tres formas para medir distancia entre

grupos:
Single linkage: distancia entre dos grupos

se mide entre los miembros ms cercanos
Complete linkage: distancia entre dos
grupos se mide entre los miembros ms
lejanos
Centroide: distancia entre dos grupos se
mide entre los centroides de cada grupo
56
Formas para medir distancias

entre grupos
57
Mtodos basados en la
densidad
Algoritmos de deteccin de grupos

basados en distancias usualmente
encuentran grupos de forma esfrica
Algoritmos basados en la densidad
permiten a los grupos crecer en
regiones con alta densidad y descubren
grupos con forma arbitraria en bases de
datos que contienen ruido
58
Mtodos basados en la
densidad
59
Consideraciones para la deteccin

automtica de grupos
Preparacin de datos
Determinacin del nmero de grupos
Interpretacin de los grupos
60
Preparacin de datos
Valores para variables a utilizar en el anlisis
Mtodos de agrupamiento funcionan sin ninguna

codificacin sobre variables de intervalo o radio
Otros tipos de variable requieren codificacin si el
software de minera de datos no la realiza
automticamente
Variables categricas binarias

Variables categricas nominales
Variables ordinales o de rango
Valores perdidos
Deben ser identificados y codificados

apropiadamente
61
Preparacin de datos
Identificacin y tratamiento de valores

extremos
Pueden afectar resultados principalmente en

algoritmos o mtodos basados en distancia
Remover o sustituir valores extremos
Identificar variables altamente

correlacionadas y seleccionar un conjunto
ms pequeo de variables
Anlisis de correlacin
Anlisis de componentes principales
62
Determinacin del nmero de

grupos
Objetivo:
Procedimiento:
encontrar un conjunto de grupos cuya distancia dentro de

cada uno de ellos sea mnima y fuera de ellos sea mxima
comparar la variacin entre grupos a la variacin dentro de
grupos para diferentes valores de K
Indicadores
Criterio de agrupamiento cbico

Estadstica falsa F
Estadstica falsa T2
63
Determinacin del nmero de

grupos
Radio de
porcentaje de
variacin entre
grupos a
porcentaje de
Porcentaje de
variacin
Porcentaje de
variacin dentro variacin entre
dentro de
de grupos
grupos
grupos
Variable
X4
Total STD
1.00000
Within STD
0.58358
X5
1.00000
0.70214
0.517838
1.073990
X13
1.00000
0.84483
0.302305
0.433290
X15
1.00000
0.55941
0.693936
2.267295
OVER-ALL
1.00000
0.68092
0.546592
1.205518
K=3
R-Square
RSQ/(1-RSQ)
0.666920
2.002280
64
Criterio de agrupamiento
cbico
Valores de CCC mayores que dos o tres indican
buenos grupos;
valores entre 0 y 2 indican grupos potenciales
pero que deben ser evaluados con cuidado.
En este caso valores de CCC son negativos lo que
indica valores extremos.
Como CCC toma un incremento en 3 de valores
mayores a menores de grupos (eje X),
se selecciona tentativamente este nmero
65
Estadsticas falsa F y falsa T2

Incrementos altos en PSF y
PST2 de valores mayores a
menores de grupos se utilizan
para seleccionar el nmero de
grupos
De acuerdo con esto nmero
ptimo de grupos est entre 2
y3
66
Las medias de las variables son buenos

indicadores de las caractersticas de los
individuos en los grupos
Variables con medias (utilizando valores
normalizados) o frecuencias muy
diferentes indican atributos o
caractersticas que separan a los grupos
67

Cluster Means
Cluster
1
X4
X5
0.280466657 -0.953149346
X13
0.714086862
X15
0.868975379
1.700924242
0.900060957 -0.052278189
0.790546535
-0.661424429
0.399999715
-0.473951479
-0.810304619
Variables X5 y X13 separan a los grupos 1 y 2

Variables X4, X5, X13 y X15 separan a los grupos 1 y 3
Variables X4 y X 15 separan a los grupos 2 y 3
68

Tema 7 Teoria

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Tema 7 Teoria

Загружено:

Авторское право:

Доступные форматы

Deteccin automtica de grupos

Dr. Francisco J. Mata

Deteccin automtica de grupos

Encontrar patrones en los datos

Dividir el conjunto de datos en segmentos o grupos

Dr. Francisco J. Mata

Deteccin automtica de grupos

Tcnica de minera de datos de

Dr. Francisco J. Mata

Luminosidad y temperatura de las

Dr. Francisco J. Mata

Dr. Francisco J. Mata

Forma usual de segmentar gente es a

Dr. Francisco J. Mata

Grupos y medidas de uniformes

Dr. Francisco J. Mata

Tambin conocidos como algoritmos de

Dr. Francisco J. Mata

Dr. Francisco J. Mata

Asume una representacin geomtrica

Registros o tuples son puntos en un

Dr. Francisco J. Mata

Seleccin de K semillas al azar

Dr. Francisco J. Mata

Asignacin de los puntos al

Dr. Francisco J. Mata

Clculo de centroides para los

Dr. Francisco J. Mata

Nueva asignacin de grupos

Dr. Francisco J. Mata

Proceso se repite iterativamente hasta

Dr. Francisco J. Mata

Si no existe razn para asumir un

El valor de K con que se obtiene la menor

Dr. Francisco J. Mata

Similitud, asociacin y distancia

K-medias es un algoritmo de deteccin

Dr. Francisco J. Mata

Calculada sobre una matriz de datos

Dr. Francisco J. Mata

d (i,K) = (|xi1 xk1|2 + |xi2 xk2 |2 + ... +

d (i,K) = |xi1 xk1| + |xi2 xk2 | + ... +

d (i,K) = (|xi1 xk1|q + |xi2 xk2 |q + ... +

Normalizacin de los datos

Unidades de medida pueden afectar los

Dr. Francisco J. Mata

Calcular el valor z correspondiente:

zif = (xif mf) / sf, donde

Dr. Francisco J. Mata

Puede ser ventajosa o no

Se puede determinar que no es

Dr. Francisco J. Mata

Se puede asignar pesos a las variables

d (i,K) = (w1|xi1 xk1|q + w2|xi2 xk2 |q +...+

Dr. Francisco J. Mata

Normalizacin y medidas presentadas

Variables de intervalo: permiten medir

Dr. Francisco J. Mata

Otros tipos de variable

Binarias: Toman dos valores

Nominales: Lista de valores sin orden

Ejemplo: {femenino, masculino}

Ejemplo: {verde, rojo, amarillo, azul}

Ordinales: Lista de valores con un