Академический Документы
Профессиональный Документы
Культура Документы
Demografa Matemtica
Anlisis de Conglomerados (Cluster Analysis).
Introduccin.
Un ser inteligente no puede tratar a cada objeto que
como una entidad nica a diferencia de cualquier otra
cosa en el universo. Tiene que poner objetos en
categoras de modo que pueda aplicar su
conocimiento ganado duro sobre objetos similares
encontrados en el pasado al objeto en cuestin.
(Pinker 1997)
ve
UAEMEX
Demografa Matemtica
respecto a la situacin econmica en grupos clasificados como clase baja, clase
media y clase alta o podran clasificarse por consumo anual de alcohol en bajos,
medios y altos. Claramente, las clasificaciones diferentes pueden no reunir el
mismo grupo de individuos en grupos, pero algunas clasificaciones sern ms
tiles que otras, lo que se hace claramente en el siguiente extracto de Needham
(1965) en el que considera la clasificacin de los seres humanos en hombres y
mujer:
En una lnea similar, es probable que una
clasificacin de libros basada en el tema en
clases tales como diccionarios, novelas,
biografas, etc. sea mucho ms til que una
basada, digamos, en el color de la
encuadernacin del libro. Tales ejemplos
ilustran que cualquier clasificacin de un
conjunto de datos multivariados es probable
que se juzgue por su utilidad.
Anlisis de Conglomerados.
El Anlisis Cluster, conocido como Anlisis de Conglomerados, es una tcnica
estadstica multivariante que busca agrupar elementos (o variables) tratando de
lograr la mxima homogeneidad en cada grupo y la mayor diferencia entre los
grupos. Es un mtodo de independencia, ya que se basa en el supuesto de que
ninguna variable es causada o determinada por otras.
El anlisis de cluster es un trmino genrico para una amplia gama de mtodos
numricos con el objetivo comn de descubrir grupos o grupos de observaciones
que son homogneos y separados de otros grupos. Las tcnicas de agrupacin
esencialmente intentan formalizar lo que los observadores humanos hacen tan
bien en dos o tres dimensiones.
El Anlisis Cluster tiene una importante tradicin de aplicacin en muchas reas
de investigacin. Sin embargo, junto con los beneficios del Anlisis Cluster existen
algunos inconvenientes. Es una tcnica descriptiva, aterica y no inferencial.
Tiene bases estadsticas sobre las que deducir inferencias estadsticas para una
poblacin a partir de una muestra, es un mtodo basado en criterios geomtricos y
se utiliza fundamentalmente como una tcnica exploratoria, descriptiva pero no
explicativa.
Etapas del anlisis de conglomerados.
1) Eleccin de las variables.
Es decisiva la seleccin de las variables que realmente sean relevantes para
identificar a los grupos, de acuerdo con el objetivo que se pretenda lograr en el
estudio o el anlisis carecer de sentido.
Dependiendo del problema las variables pueden ser:
Cualitativas (nominales o ordinales).
Cuantitativas (continuas o discretas).
El anlisis puede ser para agrupar variables o individuos.
UAEMEX
Demografa Matemtica
2) Eleccin de la medida de asociacin.
Para poder unir variables o individuos es necesario tener algunas medidas
numricas que caractericen las relaciones entre las variables o los individuos.
Cada medida refleja asociacin en un sentido particular y es necesario elegir una
medida apropiada para el problema concreto que se est tratando.
La medida de asociacin puede ser:
Una distancia: Los grupos formados contendrn individuos parecidos de forma que
la distancia entre ellos ha de ser pequea (por ejemplo, la distancia eucldea).
Una funcin d : UxU R se llama distancia mtrica s x, y,z U se verifica
Similaridad: los grupos formados contendrn individuos con una similaridad alta
entre ellos (por ejemplo, el coeficiente de correlacin).
Una funcin s : UxU R se llama similaridad s x, yU se verifica:
UAEMEX
Demografa Matemtica
UAEMEX
Demografa Matemtica
Mtodo Linkage Simple Aglomerativo
(Vecino ms cercano).
Distancia: Se toma la distancia mnima
de los individuos del grupo al nuevo
individuo.
Similitud o similaridad: Se toma la
mxima de los individuos del grupo al
nuevo individuo.
Mtodo
Linkage
Completo
Aglomerativo (Vecino ms lejano).
Distancia: Se toma la distancia
mxima de los individuos del grupo al
nuevo individuo.
Similitud o similaridad: Se toma la
mnima de los individuos del grupo al
nuevo individuo.
UAEMEX
Demografa Matemtica
Validez externa: Se puede realizar comparando los resultados obtenidos
con un criterio o realizando un Anlisis Cluster con unas diferente a la
realizada.
Dendograma
Para representar la estructura jerrquica de
la formacin de los conglomerados se utiliza
el dendograma, una representacin grfica
en forma de rbol que resume el proceso de
agrupacin en un anlisis de clusters. As, a
partir de los K elementos observados
podemos identificar desde 1 hasta K clusters,
segn el nmero de grupo que queramos
obtener,
sin
ms
que
realizar
la
segmentacin horizontal adecuada.
Los objetos similares se conectan mediante
enlaces cuya posicin en el diagrama est
determinada
por
el
nivel
de
similitud/disimilitud entre los objetos.
Es recomendable trabajar con datos
estandarizados, para eliminar el efecto de la
escala de medida, y as poder aplicar el anlisis sobre variables que presentan
similares valores medios y desviaciones estndar, lo cual facilita la interpretacin.
Aplicaciones de Clusters.
El anlisis de conglomerados cuenta con diversas aplicaciones en varias reas
tanto en la rama de las ciencias sociales como en la de las ciencias exactas.
Algunos de estos ejemplos son:
Biologa al clasificar los distintos seres vivos
Marketing, clasificarlos tipos de consumidores.
Medicina, clasificar seres vivos con los mismos sntomas y caractersticas
patolgicas.
Tcnicas de reconocimiento de patrones.
Formar grupos de pixels en imgenes digitalizadas enviadas por un satlite
desde un planeta para identificar los terrenos.
Negocios, al clasificar la industria al que pertenecen las empresas que las
componen.
Psiquiatra, para la clasificacin de trastornos mentales.
Bibliografa.
Santiago de la Fuente, Anlisis de Conglomerados, UAM
Johann M. Vega, Clasificacin mediante anlisis de conglomerados
UAEMEX
Demografa Matemtica
Eduardo Picn Bravo, Anlisis de Conglomerados, USC
Jos Paul Carrasco Escobar, Anlisis de Estadsticas del INEGI sobre residuos
solidos urbanos, INEGI
Salvador Figueroa M. , Analisis de Conglomerados o Clusters.