Вы находитесь на странице: 1из 68

Deteccin automtica de grupos

(clustering)
Tema 7
Parte terica

Dr. Francisco J. Mata

Deteccin automtica de grupos

Encontrar patrones en los datos

Dividir el conjunto de datos en segmentos o grupos


de acuerdo con un concepto de similitud

Dr. Francisco J. Mata

Deteccin automtica de grupos

Tcnica de minera de datos de


aprendizaje sin supervisin
Aprendizaje por observacin en lugar de
por casos
Requiere inteligencia humana para
interpretar resultados

Dr. Francisco J. Mata

Luminosidad y temperatura de las


estrellas

Dr. Francisco J. Mata

Grupos de gentes

Dr. Francisco J. Mata

Grupos de gentes

Forma usual de segmentar gente es a


travs de reglas de negocio basadas en
el sentido comn
Deteccin automtica de grupos
permite agrupar a la gente
directamente en sus caractersticas
(datos)
Dr. Francisco J. Mata

Grupos y mercadeo

Dr. Francisco J. Mata

Grupos y medidas de uniformes

Dr. Francisco J. Mata

Algoritmos de deteccin de
grupos

Tambin conocidos como algoritmos de


agrupacin o de cluster analysis
Utilizan el concepto de asociacin entre
entidades sobre la base de similitud
La similitud se mide en trminos de
distancia

Dr. Francisco J. Mata

Algoritmo de k-medias

El ms comnmente utilizado
Desarrollado por J.B. MacQueen en
1967
Genera k grupos o clusters de objetos

Dr. Francisco J. Mata

10

Algoritmo de k-medias

Asume una representacin geomtrica


de los datos

Registros o tuples son puntos en un


espacio de datos n-dimensional
Asume que hay K grupos

Dr. Francisco J. Mata

11

Seleccin de K semillas al azar

Dr. Francisco J. Mata

12

Asignacin de los puntos al


centroide ms cercano

Dr. Francisco J. Mata

13

Clculo de centroides para los


grupos

Dr. Francisco J. Mata

14

Nueva asignacin de grupos

Dr. Francisco J. Mata

15

Proceso iterativo

Proceso se repite iterativamente hasta


que se encuentran grupos que son
estables

Dr. Francisco J. Mata

16

Nmero de grupos

Si no existe razn para asumir un


nmero particular de grupos, se puede
utilizar varios valores de K y evaluar los
resultados obtenidos

El valor de K con que se obtiene la menor


varianza promedio

Dr. Francisco J. Mata

17

Similitud, asociacin y distancia

K-medias es un algoritmo de deteccin


de grupos basado en distancia
Otros algoritmos utilizan el concepto de
densidad (distribucin de probabilidad)

Dr. Francisco J. Mata

18

Similitud, asociacin y
distancia

Calculada sobre una matriz de datos


Variables, Atributos, Columnas

Objetos
Entidades
Registros
Tuples

X11 ....
.
.
.
.
Xi1 ....
.
.
.
.
Xn1 ....

X1f ...
.
.
.
.
Xif ...
.
.
.
.
Xnf ...

Dr. Francisco J. Mata

X1p
.
.
Xip
.
.
Xnp
19

Similitud, asociacin y
distancia

Mtricas de distancia

d
d
d
d

(X,Y)
(X,Y)
(X,Y)
(X,Y)

=
=

0
0, X = Y
d (Y,X)
d (X,Z) + d (Z,Y)

Minera de Datos
Dr. Francisco J. Mata

20

Medidas de distancia

Euclideana:

Manhattan:

d (i,K) = (|xi1 xk1|2 + |xi2 xk2 |2 + ... +


|x1p - xkp|2)1/2

d (i,K) = |xi1 xk1| + |xi2 xk2 | + ... +


|x1p - xkp|

Minkowski:

d (i,K) = (|xi1 xk1|q + |xi2 xk2 |q + ... +


|x1p - xkp|q)1/q
Dr. Francisco J. Mata

21

Normalizacin de los datos

Unidades de medida pueden afectar los


resultados de los algoritmos de
deteccin de grupos
Para evitar este problema a veces es
conveniente normalizar los datos, es
decir convertirlos a nmeros sin unidad

Dr. Francisco J. Mata

22

Procedimiento de
normalizacin de los datos

Calcular el valor z correspondiente:

zif = (xif mf) / sf, donde

mf =media de la variable f
sf=desviacin estndar de la variable f

Dr. Francisco J. Mata

23

Normalizacin de datos

Puede ser ventajosa o no

Se puede determinar que no es


conveniente normalizar los datos

Dr. Francisco J. Mata

24

Distancias ponderadas

Se puede asignar pesos a las variables


de acuerdo con la importancia percibida

d (i,K) = (w1|xi1 xk1|q + w2|xi2 xk2 |q +...+


wn|x1n - xkn|q)1/q

Dr. Francisco J. Mata

25

Tipos de variables

Normalizacin y medidas presentadas


slo se pueden utilizar con variables de
intervalo o de radio

Variables de intervalo: permiten medir


distancias
Variables de radio: intervalo medido a
partir de un cero con significado

Dr. Francisco J. Mata

26

Otros tipos de variable

Categricas:

Binarias: Toman dos valores

Nominales: Lista de valores sin orden

Ejemplo: {femenino, masculino}

Ejemplo: {verde, rojo, amarillo, azul}

Ordinales: Lista de valores con un


orden pero no una distancia

Ejemplos: {psimo, malo, bueno, ptimo}


Dr. Francisco J. Mata

27

Tratamiento de variables
categricas binarias

Toman slo dos valores


Calcular tabla de contingencia para los
objetos a medir:

Objeto i

Objeto j
1
0
q
r

suma
q+r

s+t

q+s

r+t

suma

Dr. Francisco J. Mata

q+r+s+t
28

Tratamiento de variables
categricas binarias

Distancia depender de si la variable es

Simtrica: si ambas estados conllevan el mismo


valor y por lo tanto llevan el mismo peso

Ejemplo: Gnero {masculino, femenino]

Asimtrica: los estados resultantes no tiene el


mismo peso

Ejemplo: Resultado de una prueba de enfermedad


{positivo, negativo}; por convencin el estado ms
importante o raro se codifica como 1

Dr. Francisco J. Mata

29

Tratamiento de variables
categricas binarias

Distancia variables simtricas


(coeficiente de coincidencia simple):

d (i,j) = (r+s)/(q+r+s+t)

Distancia variables asimtricas


(coeficiente de Jaccard):

d (i,j) = (r+s)/(q+r+s)

Dr. Francisco J. Mata

30

Ejercicio
Persona
Juan
Mara
Pedro

Sntomas
Exmenes
Fiebre Tos A B C D
S
S
S

No
No
S

P N
P N
N N

N
P
N

N
N
N

Quines tiene ms posibilidad de tener enfermedades


similares y quines enfermedades diferentes?
Calcular las distancias entre cada persona utilizando el coeficiente
de Jaccard considerando los resultados de los sntomas y exmenes
como asimtricos y los valores de S y P como 1
Dr. Francisco J. Mata

31

Respuesta

d (Juan,Mara) = (0+1)/(2+0+1) = 0.33


d (Juan,Pedro) = (1+1)/(1+1+1) = 0.67
d (Pedro,Mara) = (1+2)/(1+1+2) = 0.75
Juan y Mara tienen ms posibilidad de tener
enfermedades similares y
Pedro y Mara diferentes

Dr. Francisco J. Mata

32

Tratamiento de variables
categricas nominales

Coeficiente de coincidencia simple:

d (i,j) = (p-m)/p

m es el nmero de coincidencias
p es el nmero de variables

Dr. Francisco J. Mata

33

Tratamiento de variables
categricas nominales

Ejercicio
Producto
1
2
3
4
5

d(1,3)=?

Color
Rojo
Verde
Rojo
Amarillo
Azul

d(1,4)=?

Forma
Redondo
Cuadrado
Rectangular
Cuadrado
Asimtrica

d(2,4)=?

Dr. Francisco J. Mata

Sabor
Dulce
Salado
Dulce
cido
Amargo

d(3,5)=?

34

Tratamiento de variables
categricas nominales

Respuesta
Producto
1
3
4

Forma
Redondo
Rectangular
Cuadrado

Sabor
Dulce
Dulce
cido

d (i,j) = (p-m)/p

Color
Rojo
Rojo
Amarillo

m es el nmero de coincidencias
p es el nmero de variables

d(1,3)=(3-2)/3=0,33
d(1,4)=(3-0)/3=1
Dr. Francisco J. Mata

35

Tratamiento de variables
ordinales (de rango)

Si la variable f tiene Mf valores ordinales


{r1, r2, ... rMf}, ri < rj para i < j,
reemplace cada valor de la variable por
su correspondiente orden (ri i)

Dr. Francisco J. Mata

36

Tratamiento de variables
ordinales (cont.)

Si hay varias variables ordinales con


diferentes nmeros de valores
normalice al intervalo [0,1] para que
cada variable tenga el mismo peso

Sustituya el i-simo valor para el rango de


la variable f como

zif = (i1)/ (Mf1)

Dr. Francisco J. Mata

37

Tratamiento de variables
ordinales (cont.)

Utilice las distancias Euclideana, de


Manhattan o de Minkowski con los
valores zif

Dr. Francisco J. Mata

38

Variables de Distintos Tipos

Dr. Francisco J. Mata

39

ngulos entre vectores como


medida de asociacin

Cuando las relaciones entre los


individuos son ms importantes que las
diferencias, el ngulo entre vectores es
una mejor medida de similitud que la
distancia

Dr. Francisco J. Mata

40

Angulo entre vectores como


medida de asociacin

Dr. Francisco J. Mata

41

Angulo entre vectores como


medida de asociacin

Uso del seno del ngulo

0 vectores son paralelos


1 vectores son ortogonales

Dr. Francisco J. Mata

42

Problemas con el algoritmo de kmedias

No funciona bien con grupos que se traslapan


Los grupos son afectados por valores
extremos
Cada registro, tuple o entidad est en un
grupo o no; no existe la nocin de que uno
de ellos pertenezca con mayor o menor
probabilidad al grupo que se le asignado

Dr. Francisco J. Mata

43

Modelos mixtos gaussianos

Variante probabilstica de K-medias

Los puntos se asumen que estn distribuidos de


acuerdo con una probabilidad gaussiana: n
densidades normales independientes
Igual a K-medias se seleccionan K semillas

Medias de distribuciones gaussianas


Llamadas gaussianos

Algoritmo itera sobre dos pasos

Estimacin
Maximizacin
Dr. Francisco J. Mata

44

Modelos mixtos gaussianos

Paso de estimacin

Se calcula la responsabilidad de cada


gaussiano para cada punto de datos

Fuerte para puntos que estn cerca


Dbil para puntos que estn lejanos

Responsabilidades se utilizan como pesos


en el siguiente paso

Dr. Francisco J. Mata

45

Modelos mixtos gaussianos

Dr. Francisco J. Mata

46

Modelos mixtos gaussianos

Paso de maximizacin

La media de cada gaussiano se mueve


hacia el centroide de todo el conjunto de
datos utilizando la ponderacin de las
responsabilidades para cada punto

Dr. Francisco J. Mata

47

Modelos mixtos gaussianos

Los pasos de estimacin y maximizacin


se repiten hasta que no se pueden
cambiar los gaussianos

Dr. Francisco J. Mata

48

Modelos mixtos gaussianos

Se les denomina a veces como


agrupacin suave

Cada punto tiene una probabilidad de


pertenecer a cada uno de los K grupos

Se asigna al grupo que tiene ms probabilidad

Dr. Francisco J. Mata

49

Modelos mixtos gaussianos


Probabilidad
de pertenecer
a un grupo

Dr. Francisco J. Mata

50

Clases de algoritmos de
deteccin de grupos

Mtodos de particionamiento

Mtodos jerrquicos:

Dividen el conjunto de datos en K grupos


Crean una descomposicin jerrquica del conjunto
de datos

Mtodos basados en la densidad:

Un grupo puede crecer en tanto su densidad en el


vecindario exceda un valor dado (threshold)

Dr. Francisco J. Mata

51

Clases de Algoritmos de
deteccin de grupos (cont.)

Mtodos basados en mallas:

Cuantifican el espacio de objetos en un


nmero finito de celdas que forman un
estructura de malla

Mtodos basados en modelos:

Hipotetizan un modelo para cada grupo y


encuentran el mejor ajuste de los datos a
este modelo
Dr. Francisco J. Mata

52

Mtodos de particionamiento

K-medias
Modelos mixtos gaussianos

Dr. Francisco J. Mata

53

Mtodos jerrquicos

Aglomerativos:

De abajo hacia arriba

Cada objeto empieza en su propio grupo

Divisivos:

De arriba hacia abajo

Se empieza con todos los objetos en un solo


grupo

Dr. Francisco J. Mata

54

Ejemplo de mtodos
aglomerativos
Agrupacin
de personas
por edad
Funcin de
distancia:

diferencia de
edades

Dr. Francisco J. Mata

55

Mtodos jerrquicos

Tres formas para medir distancia entre


grupos:

Single linkage: distancia entre dos grupos


se mide entre los miembros ms cercanos
Complete linkage: distancia entre dos
grupos se mide entre los miembros ms
lejanos
Centroide: distancia entre dos grupos se
mide entre los centroides de cada grupo
Dr. Francisco J. Mata

56

Formas para medir distancias


entre grupos

Dr. Francisco J. Mata

57

Mtodos basados en la
densidad

Algoritmos de deteccin de grupos


basados en distancias usualmente
encuentran grupos de forma esfrica
Algoritmos basados en la densidad
permiten a los grupos crecer en
regiones con alta densidad y descubren
grupos con forma arbitraria en bases de
datos que contienen ruido
Dr. Francisco J. Mata

58

Mtodos basados en la
densidad

Dr. Francisco J. Mata

59

Consideraciones para la deteccin


automtica de grupos

Preparacin de datos
Determinacin del nmero de grupos
Interpretacin de los grupos

Dr. Francisco J. Mata

60

Preparacin de datos

Valores para variables a utilizar en el anlisis

Mtodos de agrupamiento funcionan sin ninguna


codificacin sobre variables de intervalo o radio
Otros tipos de variable requieren codificacin si el
software de minera de datos no la realiza
automticamente

Variables categricas binarias


Variables categricas nominales
Variables ordinales o de rango

Valores perdidos

Deben ser identificados y codificados


apropiadamente
Dr. Francisco J. Mata

61

Preparacin de datos

Identificacin y tratamiento de valores


extremos

Pueden afectar resultados principalmente en


algoritmos o mtodos basados en distancia

Remover o sustituir valores extremos

Identificar variables altamente


correlacionadas y seleccionar un conjunto
ms pequeo de variables

Anlisis de correlacin
Anlisis de componentes principales
Dr. Francisco J. Mata

62

Determinacin del nmero de


grupos

Objetivo:

Procedimiento:

encontrar un conjunto de grupos cuya distancia dentro de


cada uno de ellos sea mnima y fuera de ellos sea mxima
comparar la variacin entre grupos a la variacin dentro de
grupos para diferentes valores de K

Indicadores

Criterio de agrupamiento cbico


Estadstica falsa F
Estadstica falsa T2

Dr. Francisco J. Mata

63

Determinacin del nmero de


grupos
Radio de
porcentaje de
variacin entre
grupos a
porcentaje de
Porcentaje de
variacin
Porcentaje de
variacin dentro variacin entre
dentro de
de grupos
grupos
grupos
Variable
X4

Total STD
1.00000

Within STD
0.58358

X5

1.00000

0.70214

0.517838

1.073990

X13

1.00000

0.84483

0.302305

0.433290

X15

1.00000

0.55941

0.693936

2.267295

OVER-ALL

1.00000

0.68092

0.546592

1.205518

K=3

R-Square
RSQ/(1-RSQ)
0.666920
2.002280

Dr. Francisco J. Mata

64

Criterio de agrupamiento
cbico
Valores de CCC mayores que dos o tres indican
buenos grupos;
valores entre 0 y 2 indican grupos potenciales
pero que deben ser evaluados con cuidado.
En este caso valores de CCC son negativos lo que
indica valores extremos.
Como CCC toma un incremento en 3 de valores
mayores a menores de grupos (eje X),
se selecciona tentativamente este nmero

Dr. Francisco J. Mata

65

Estadsticas falsa F y falsa T2


Incrementos altos en PSF y
PST2 de valores mayores a
menores de grupos se utilizan
para seleccionar el nmero de
grupos
De acuerdo con esto nmero
ptimo de grupos est entre 2
y3

Dr. Francisco J. Mata

66

Interpretacin de los grupos

Las medias de las variables son buenos


indicadores de las caractersticas de los
individuos en los grupos
Variables con medias (utilizando valores
normalizados) o frecuencias muy
diferentes indican atributos o
caractersticas que separan a los grupos
Dr. Francisco J. Mata

67

Interpretacin de los grupos


Cluster Means

Cluster
1

X4
X5
0.280466657 -0.953149346

X13
0.714086862

X15
0.868975379

1.700924242

0.900060957 -0.052278189

0.790546535

-0.661424429

0.399999715

-0.473951479

-0.810304619

Variables X5 y X13 separan a los grupos 1 y 2


Variables X4, X5, X13 y X15 separan a los grupos 1 y 3
Variables X4 y X 15 separan a los grupos 2 y 3

Dr. Francisco J. Mata

68

Вам также может понравиться