Вы находитесь на странице: 1из 33

ANÁLISIS DE

CONGLOMERADOS
JERÁRQUICOS
ALUMNA : Fabiola Legoas Farías

CICLO: 2019-1 SECCIÓN: GV81


CONCEPTOS PREVIOS
La
estadística

Es una ciencia que se


Puede dividirse encarga de recolectar,
en : clasificar y organizar
información.

Inferencial:
Descriptiva: Método utilizado para Finalidad:
Método por el cual se poder inferir
describe y analizan las características INTERPRETAR
muestras tomadas. observadas en una DATOS
muestra.

Fuente: https://enciclopediaeconomica.com/estadística/
CONGLOMERADO JERÁRQUICO
DEFINICIÓN:

Máxima
homogeneidad
Técnica multivariante
que tiene como
finalidad agrupar
elementos similares
Conocido como
Mayor diferencia
“Análisis Clúster”
Técnica descriptiva,
ateórica y no
inferencial.

Fuente: http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/CONGLOMERADOS/conglomerados.pdf
CONGLOMERADO JERÁRQUICO
§ Este método depende completamente de las variables utilizadas;
el cambio de alguna de ellas impactará en la solución final.

§ Las soluciones obtenidas al final del análisis no son únicas.

§ Se basa en criterios geométricos y es utilizada como una técnica


exploratoria más no explicativa.

§ Es una técnica aglomerativa; de esta manera va formando grupos


hasta llegar a un único grupo que alberga todos los elementos de la
muestra.

§ Es versátil dado que pueden utilizarse diferentes tipos de medidas


para estimar las distancias que existente entre las variables.
Fuente:http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/CONGLOMERADOS/conglomerados.pdf
CONGLOMERADO JERÁRQUICO
PASOS:

Elección de la Elección del


Elección de
medida de método de
variables
asociación análisis clúster

Interpretación
Validación de
de resultados
resultados
(Gráficos)

Fuente: http://ocw.upm.es/estadistica-e-investigacion-operativa/matematicas-y-estadistica-aplicada/contenidos/OCW/Anal_Multivar/Mat_Clase/anal_mult_2.pdf
ELECCIÓN DE VARIABLES
Variable estadística: Es una característica o cualidad de los individuos de una población.

Cuantitativas Cualitativas

• Número de máquinas • Lugar de nacimiento

• Número de trabajadores
Discreta Nominal • Grupo sanguíneo

• Altura de los trabajadores

• Volumen y masa
Continua Ordinal • Grado de lesiones

• Grado de
escolaridad

Fuente: https://enciclopediaeconomica.com/variable-estadistica/
ELECCIÓN DE LA MEDIDA DE ASOCIACIÓN

Medidas de Asociación

De Distancia De Similaridad
Los grupos formados deben contener Los grupos que se formaran van a
individuos parecidos y la distancia contener a individuos con similitudes
entre ellos debe ser la menor posible. altas entre ellos.

Se utiliza: Se utiliza:
- Distancia Euclídea - Coeficiente de correlación
- Distancia de Minkowski
- Distancia de Mahalanobis

Fuente: https://www.uv.es/ceaces/multivari/cluster/CLUSTER2.htm
MEDIDAS DE ASOCIACIÓN : DE DISTANCIA

La distancia euclídea es la que se da entre


P2 dos puntos de un espacio, se basa en el
teorema de Pitágoras.

P1

Fuente: http://personal.us.es/analopez/ac.pdf
MEDIDAS DE ASOCIACIÓN : DE DISTANCIA

La distancia euclídea es recomendable para variables homogéneas y que se


encuentren en medidas de unidades similares. A pesar de ser uno de los
métodos de distancia más sencillo, presenta inconvenientes:

o Es una distancia sensible a las unidades de medida de las variables, si


existen cambios de escala ocasionará cambios en la distancia entre los
individuos.

o La naturaleza de las variables influye en la distancia euclídea obtenida; si


las variables se encuentran correlacionadas, aumentará la divergencia
entre ellas.

Fuente: https://www.uv.es/ceaces/multivari/cluster/CLUSTER2.htm
MEDIDAS DE ASOCIACIÓN : DE DISTANCIA

ü Determina la similitud entre dos variables aleatorias


multidimensionales.
ü Esta distancia sí toma en cuenta la correlación existente entre las
variables.

En donde :
o ! y " cuentan con la
misma distribución de
probabilidad
o ∑ = matriz de varianza

Fuente: https://www.uv.es/ceaces/multivari/cluster/criterios_de_similitud.htm
MEDIDAS DE ASOCIACIÓN : DE DISTANCIA

Desigualdad
triangular

Semipositividad Simetría

Fuente :https://www.ugr.es/~gallardo/pdf/cluster-2.pdf
MEDIDAS DE ASOCIACIÓN: DE SIMILARIDAD

o En medidas de asociación de distancias,


las mayores nos indicaban individuos
diferentes mientras que en las bajas
individuos similares.

o Por el contrario, en las medidas de


asociación de similaridad, a mayor
valor, mayor similaridad y a menor
valor, menor similaridad.

o Para medidas de asociación utilizamos


coeficientes de correlación.

Fuente: https://www.uv.es/ceaces/multivari/cluster/criterios_de_similitud.htm
MEDIDAS DE ASOCIACIÓN: DE SIMILARIDAD

ü También llamada : Nearest Neighbour Distance

ü Este método de asociación de similaridad asigna los valores


mínimos a la distancia entre conglomerados.

Fuente: http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/CONGLOMERADOS/conglomerados.pdf
MEDIDAS DE ASOCIACIÓN: DE SIMILARIDAD

ü También llamada : Furthest Neighbour Distance

ü Este método de asociación de similaridad asigna los valores


máximos a la distancia entre conglomerados.

Fuente: https://www.uv.es/ceaces/multivari/cluster/CLUSTER2.htm
MEDIDAS DE ASOCIACIÓN: DE SIMILARIDAD

ü Este método de asociación de similaridad asigna como distancia


el centroide o centro de gravedad de cada conglomerado.

Fuente: https://www.uv.es/ceaces/multivari/cluster/criterios_de_similitud.htm
MÉTODO DE ANÁLISIS CLÚSTER

Fuente: http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/CONGLOMERADOS/conglomerados.pdf
MÉTODO DE ANÁLISIS CLÚSTER

Se empieza con varios elementos y en


cada paso se van asociando y creando
Aglomerativos grupos con menos o más similitudes. Al
finalizar se cuenta con un solo grupo.

Se empieza con un solo grupo que


contiene a todos los elementos y en cada
Disociativo paso se van dividiendo los elementos
con menos similitudes. Al finalizar se
obtendrán varios grupos pequeños.

Fuente: http://ocw.upm.es/estadistica-e-investigacion-operativa/matematicas-y-estadistica-aplicada/contenidos/OCW/Anal_Multivar/Mat_Clase/anal_mult_2.pdf
MÉTODO DE ANÁLISIS CLÚSTER: GRÁFICO
REPRESENTACIÓN:

Dendrograma :
Es un diagrama de árbol que
muestra todos los grupos y su
formación en cada nivel y qué
tan similares son entre ellos (En
el eje vertical se encuentran las
distancias)

Fuente:http://pagines.uab.cat/plopez/sites/pagines.uab.cat.plopez/files/ACL-UBA.pdf
EJEMPLOS DE DENDROGRAMAS

Un mal resultado:
El dendrograma muestra
encadenamiento

Fuente: http://www.usc.es/export9/sites/webinstitucional/gl/investigacion/grupos/psicom/docencia/grado/analisis/Teoria/tema_6.pdf
INTERPRETACIÓN DE ANÁLISIS CLÚSTER

Para poder interpretar los clúster formados se utiliza:

qAnálisis de varianza (ANOVA)

qAnálisis factorial o de componentes principales

qAnálisis discriminante

qCalcular perfiles medios por grupos y compararlos

Fuente: https://ciberconta.unizar.es/LECCION/cluster/inicio.html
VALIDACIÓN DE RESULTADOS

Para poder validar los resultados de los conglomerados


formados se utiliza:

qCoeficiente de correlación cophenético

qReplicación

qSimulación Monte Carlo

qInterpretabilidad teórico- práctico

Fuente:https://papers.uab.cat/article/view/v37-fernandez/pdf-es
CASO PRÁCTICO
Realizaremos el proceso de análisis por conglomerados jerárquicos con un
ejemplo que contiene 5 individuos (A,B,C,D,E) y 2 variables (X1 y X2).

1. En primer lugar presentaremos los datos en una tabla.

Fuente: http://wpd.ugr.es/~bioestad/guia-spss/practica-8/
CASO PRÁCTICO
2. Se necesita detectar los valores atípicos, por ese motivo se representar los
puntos en un plano. (Se puede notar por la representación en el plano que
no existen valores atípicos).

Fuente: http://wpd.ugr.es/~bioestad/guia-spss/practica-8/
CASO PRÁCTICO
3. Para este ejemplo la medida de distancia se efectuará mediante la distancia
euclídea. Se halla de la siguiente manera:

Empezaremos tomando los puntos A y B :

Fuente: http://wpd.ugr.es/~bioestad/guia-spss/practica-8/
CASO PRÁCTICO
De igual manera se hallará la distancia euclídea entre todos los puntos y se
podrá obtener la siguiente tabla:

Fuente: http://wpd.ugr.es/~bioestad/guia-spss/practica-8/
CASO PRÁCTICO
4. Se puede observar en la tabla de distancias cuales son los individuos más
similares, en este caso en particular tenemos que son A y B (con una
distancia menor ).

5. Se empezarán a fusionar los individuos y se creará un nuevo conglomerado


donde se encuentran A y B. De manera que ahora tendremos : AB, C, D y E.

6. Tomaremos el centroide de AB, como nuevas coordenadas.

Fuente: http://wpd.ugr.es/~bioestad/guia-spss/practica-8/
CASO PRÁCTICO
7. Repetiremos el paso 3 y hallaremos distancias con las nuevas coordenadas
de AB y obtendremos la siguiente tabla:

En esta tabla podemos identificar que los de mayor similitud son D y E con una
distancia de 2, a partir de esto se crea un nuevo clúster DE.

Fuente: http://wpd.ugr.es/~bioestad/guia-spss/practica-8/
CASO PRÁCTICO
8. Al igual que en el clúster AB, calculamos el centroide del clúster DE, y se
formará una nueva tabla de datos.

Fuente: http://wpd.ugr.es/~bioestad/guia-spss/practica-8/
CASO PRÁCTICO
9. Con los nuevos datos se obtendrá una tabla de nuevas distancias.

En esta tabla podemos identificar que los de mayor similitud son DE y C con una
distancia de 2.8, a partir de esto se crea un nuevo clúster CDE.

Fuente: http://wpd.ugr.es/~bioestad/guia-spss/practica-8/
CASO PRÁCTICO
10. Al igual que en el clúster DE, calculamos el centroide del clúster CDE, y se
formará una nueva tabla de datos.

Fuente: http://wpd.ugr.es/~bioestad/guia-spss/practica-8/
CASO PRÁCTICO
11. Se calculan nuevamente las distancias. Obteniendo la siguiente tabla:

En esta tabla podemos identificar que solamente nos quedan dos clústers con
una distancia de 6.4 , ambos se fusionan en un solo clúster.

Fuente: http://wpd.ugr.es/~bioestad/guia-spss/practica-8/
CASO PRÁCTICO
12. Se representará de manera gráfica todo el proceso, hasta llegar a un único
clúster.

Fuente: http://wpd.ugr.es/~bioestad/guia-spss/practica-8/
ü https://enciclopediaeconomica.com/estadistica/ (Fecha de consulta: 02 de Abril 2019)

ü http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/CONGLOMERADOS/co
nglomerados.pdf (Fecha de consulta: 02 de Abril 2019)

ü http://personal.us.es/analopez/ac.pdf (Fecha de consulta : 04 de Abril 2019)

ü https://ciberconta.unizar.es/LECCION/cluster/inicio.html ( Fecha de consulta: 05 de Abril 2019)

ü http://www.disi.unal.edu.co/profesores/eleonguz/cursos/md/presentaciones/Sesion11_Agrupacion.
pdf (Fecha de consulta: 05 de Abril 2019)

ü http://ocw.upm.es/estadistica-e-investigacion-operativa/matematicas-y-estadistica-
aplicada/contenidos/OCW/Anal_Multivar/Mat_Clase/anal_mult_2.pdf (Fecha de consulta: 08 de Abril
2019)

ü http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/GuiaSPSS/22conglj.pdf (Fecha de
consulta: 09 de Abril 2019)

ü http://wpd.ugr.es/~bioestad/guia-spss/practica-8/ (Fecha de consulta: 09 de abril 2019)

Вам также может понравиться