Вы находитесь на странице: 1из 7

UAEMEX

Demografa Matemtica
Anlisis de Conglomerados (Cluster Analysis).
Introduccin.
Un ser inteligente no puede tratar a cada objeto que
como una entidad nica a diferencia de cualquier otra
cosa en el universo. Tiene que poner objetos en
categoras de modo que pueda aplicar su
conocimiento ganado duro sobre objetos similares
encontrados en el pasado al objeto en cuestin.
(Pinker 1997)

ve

Una de las habilidades ms bsicas de las criaturas vivientes implica la


agrupacin de objetos similares para producir una clasificacin. La idea de
clasificar cosas similares en categoras es claramente primitiva, porque los
primeros seres humanos, por ejemplo, deben haber sido capaces de darse cuenta
de que muchos objetos individuales comparten ciertas propiedades tales como ser
comestibles, venenosas o feroz, etc. Y la clasificacin en su sentido ms amplio es
necesaria para el desarrollo del lenguaje, que consiste en palabras que nos
ayudan a reconocer y discutir los diferentes tipos de eventos, objetos y personas
que encontramos. Cada sustantivo en un lenguaje, por ejemplo, es esencialmente
una etiqueta usada para describir una clase de cosas que tienen rasgos llamativos
en comn; As los animales se llaman gatos, perros, caballos, etc., y cada nombre
recoge individuos en grupos. Nombrar y clasificar son esencialmente sinnimos.
Adems de ser una actividad conceptual humana bsica, la clasificacin de los
fenmenos estudiados es un componente importante de prcticamente toda la
investigacin cientfica. En las ciencias del comportamiento, por ejemplo, estos
"fenmenos" pueden ser individuos o sociedades, o incluso patrones de
comportamiento o percepcin. El investigador est generalmente interesado en
encontrar una clasificacin en la cual los artculos de inters se clasifican en un
pequeo nmero de grupos homogneos o racimos, siendo sinnimos los
trminos. Ms comnmente la clasificacin requerida es aquella en la que los
grupos son mutuamente excluyentes (un elemento pertenece a un solo grupo) en
lugar de solaparse (los elementos pueden ser miembros de ms de un grupo).
Como mnimo, cualquier esquema de clasificacin derivado debera proporcionar
un mtodo conveniente para organizar un conjunto grande y complejo de datos
multivariados, con las etiquetas de clase proporcionando una manera
parsimoniosa de describir los patrones de similitudes y diferencias en los datos. En
la investigacin de mercados, por ejemplo, podra ser til agrupar a un gran
nmero de clientes potenciales de acuerdo con sus necesidades en un rea de
producto en particular. Las campaas publicitarias podran entonces adaptarse a
los diferentes tipos de consumidores representados por los diferentes grupos.
Claramente, una variedad de clasificaciones siempre ser posible para lo que se
est clasificando. Por ejemplo, los seres humanos podran clasificarse con

UAEMEX
Demografa Matemtica
respecto a la situacin econmica en grupos clasificados como clase baja, clase
media y clase alta o podran clasificarse por consumo anual de alcohol en bajos,
medios y altos. Claramente, las clasificaciones diferentes pueden no reunir el
mismo grupo de individuos en grupos, pero algunas clasificaciones sern ms
tiles que otras, lo que se hace claramente en el siguiente extracto de Needham
(1965) en el que considera la clasificacin de los seres humanos en hombres y
mujer:
En una lnea similar, es probable que una
clasificacin de libros basada en el tema en
clases tales como diccionarios, novelas,
biografas, etc. sea mucho ms til que una
basada, digamos, en el color de la
encuadernacin del libro. Tales ejemplos
ilustran que cualquier clasificacin de un
conjunto de datos multivariados es probable
que se juzgue por su utilidad.
Anlisis de Conglomerados.
El Anlisis Cluster, conocido como Anlisis de Conglomerados, es una tcnica
estadstica multivariante que busca agrupar elementos (o variables) tratando de
lograr la mxima homogeneidad en cada grupo y la mayor diferencia entre los
grupos. Es un mtodo de independencia, ya que se basa en el supuesto de que
ninguna variable es causada o determinada por otras.
El anlisis de cluster es un trmino genrico para una amplia gama de mtodos
numricos con el objetivo comn de descubrir grupos o grupos de observaciones
que son homogneos y separados de otros grupos. Las tcnicas de agrupacin
esencialmente intentan formalizar lo que los observadores humanos hacen tan
bien en dos o tres dimensiones.
El Anlisis Cluster tiene una importante tradicin de aplicacin en muchas reas
de investigacin. Sin embargo, junto con los beneficios del Anlisis Cluster existen
algunos inconvenientes. Es una tcnica descriptiva, aterica y no inferencial.
Tiene bases estadsticas sobre las que deducir inferencias estadsticas para una
poblacin a partir de una muestra, es un mtodo basado en criterios geomtricos y
se utiliza fundamentalmente como una tcnica exploratoria, descriptiva pero no
explicativa.
Etapas del anlisis de conglomerados.
1) Eleccin de las variables.
Es decisiva la seleccin de las variables que realmente sean relevantes para
identificar a los grupos, de acuerdo con el objetivo que se pretenda lograr en el
estudio o el anlisis carecer de sentido.
Dependiendo del problema las variables pueden ser:
Cualitativas (nominales o ordinales).
Cuantitativas (continuas o discretas).
El anlisis puede ser para agrupar variables o individuos.

UAEMEX
Demografa Matemtica
2) Eleccin de la medida de asociacin.
Para poder unir variables o individuos es necesario tener algunas medidas
numricas que caractericen las relaciones entre las variables o los individuos.
Cada medida refleja asociacin en un sentido particular y es necesario elegir una
medida apropiada para el problema concreto que se est tratando.
La medida de asociacin puede ser:
Una distancia: Los grupos formados contendrn individuos parecidos de forma que
la distancia entre ellos ha de ser pequea (por ejemplo, la distancia eucldea).
Una funcin d : UxU R se llama distancia mtrica s x, y,z U se verifica

Similaridad: los grupos formados contendrn individuos con una similaridad alta
entre ellos (por ejemplo, el coeficiente de correlacin).
Una funcin s : UxU R se llama similaridad s x, yU se verifica:

3) Eleccin de la tcnica Cluster.


Algoritmos de formacin de conglomerados.
Puesto que la utilizacin del anlisis cluster ya implica un desconocimiento o
conocimiento incompleto de la clasificacin de los datos, el investigador ha de ser
consciente de la necesidad de emplear varios mtodos, ninguno de ellos
incuestionable, con el fin de contrastar los resultados. Estos se agrupan en dos
categoras:
Algoritmos jerrquicos: Su objetivo es agrupar cluster para formar uno nuevo o
separar alguno ya existente para dar origen a otros dos de forma que se maximice
una medida de similaridad o se minimice alguna distancia.. Se dividen en:
Aglomerativo: Parte con una situacin en que cada observacin forma un
conglomerado y en sucesivos pasos se van uniendo, hasta que finalmente
todas las situaciones estn en un nico conglomerado.
Disociativo: Sigue el sentido inverso, parte de un gran conglomerado y en
pasos sucesivos se va dividiendo hasta que cada observacin queda en un
conglomerado distinto.

UAEMEX
Demografa Matemtica

Algoritmos de particin (Algoritmo no gerarquicos): Estn diseados para la


clasificacin de individuos (no de variables) en K grupos. Es el mtodo de dividir el
conjunto de observaciones en k conglomerados (clusters), en donde k lo define
inicialmente el usuario.

Distancia entre conglomerados.


Las distancias entre los conglomerados son funciones de las distancias entre
observaciones, hay varias formas de definirlas y conocidas estas distancias
podemos emplear observamos cules son los individuos ms prximos en cuanto
a esta distancia o similaridad. Estos dos individuos forman un grupo que no vuelve
a separarse durante el proceso. Se repite el proceso, volviendo a medir la
distancia o similaridad entre todos los individuos de nuevo.

UAEMEX
Demografa Matemtica
Mtodo Linkage Simple Aglomerativo
(Vecino ms cercano).
Distancia: Se toma la distancia mnima
de los individuos del grupo al nuevo
individuo.
Similitud o similaridad: Se toma la
mxima de los individuos del grupo al
nuevo individuo.

Mtodo
Linkage
Completo
Aglomerativo (Vecino ms lejano).
Distancia: Se toma la distancia
mxima de los individuos del grupo al
nuevo individuo.
Similitud o similaridad: Se toma la
mnima de los individuos del grupo al
nuevo individuo.

4) Validacin de los resultados


Una vez obtenidos los grupos e interpretados los resultados conviene, siempre
que sea posible, proceder a la validacin de los mismo con el fin de averiguar, por
un lado, hasta qu punto los resultados obtenidos son extrapolables a la poblacin
de la que vienen los objetos seleccionados y, por otro lado, por que han aparecido
dichos grupos.
Esta validacin de puede realizar de forma externa o interna.
Validez interna: Se puede establecer utilizando procedimientos de
validacin cruzada. Para ello se dividen los datos en dos grupos y se aplica
el algoritmo de clasificacin a cada grupo comparando los resultados
obtenidos en cada grupo.

UAEMEX
Demografa Matemtica
Validez externa: Se puede realizar comparando los resultados obtenidos
con un criterio o realizando un Anlisis Cluster con unas diferente a la
realizada.
Dendograma
Para representar la estructura jerrquica de
la formacin de los conglomerados se utiliza
el dendograma, una representacin grfica
en forma de rbol que resume el proceso de
agrupacin en un anlisis de clusters. As, a
partir de los K elementos observados
podemos identificar desde 1 hasta K clusters,
segn el nmero de grupo que queramos
obtener,
sin
ms
que
realizar
la
segmentacin horizontal adecuada.
Los objetos similares se conectan mediante
enlaces cuya posicin en el diagrama est
determinada
por
el
nivel
de
similitud/disimilitud entre los objetos.
Es recomendable trabajar con datos
estandarizados, para eliminar el efecto de la
escala de medida, y as poder aplicar el anlisis sobre variables que presentan
similares valores medios y desviaciones estndar, lo cual facilita la interpretacin.
Aplicaciones de Clusters.
El anlisis de conglomerados cuenta con diversas aplicaciones en varias reas
tanto en la rama de las ciencias sociales como en la de las ciencias exactas.
Algunos de estos ejemplos son:
Biologa al clasificar los distintos seres vivos
Marketing, clasificarlos tipos de consumidores.
Medicina, clasificar seres vivos con los mismos sntomas y caractersticas
patolgicas.
Tcnicas de reconocimiento de patrones.
Formar grupos de pixels en imgenes digitalizadas enviadas por un satlite
desde un planeta para identificar los terrenos.
Negocios, al clasificar la industria al que pertenecen las empresas que las
componen.
Psiquiatra, para la clasificacin de trastornos mentales.

Bibliografa.
Santiago de la Fuente, Anlisis de Conglomerados, UAM
Johann M. Vega, Clasificacin mediante anlisis de conglomerados

UAEMEX
Demografa Matemtica
Eduardo Picn Bravo, Anlisis de Conglomerados, USC
Jos Paul Carrasco Escobar, Anlisis de Estadsticas del INEGI sobre residuos
solidos urbanos, INEGI
Salvador Figueroa M. , Analisis de Conglomerados o Clusters.

Вам также может понравиться