Академический Документы
Профессиональный Документы
Культура Документы
Aprendizaje
supervisado
vs
aprendizaje
no
supervisado
Modelos
descrip0vos
§
Dado
un
conjunto
de
variables
sobre
unos
datos
de
una
empresa,
pretendemos
buscar
en
ellos
caracterís-cas
relevantes
o
segmentar
los
datos
en
grupos
(o
clustering).
Modelos
predic0vos
§
Dado
un
conjunto
de
variables
sobre
unos
datos,
pretendemos
aquí
predecir
una
variable
especial
(e-queta)
que
depende
de
alguna
forma
del
conjunto
de
datos
iniciales.
El
obje-vo
es
“aprender”
un
modelo
que
nos
permita
adivinar
la
e-queta
a
par-r
de
las
relaciones
encontradas
en
el
pasado
Clustering
jerárquico
Se
agrupan
sucesivamente
los
datos
uniendo
progresivamente
los
ejemplos
en
clusters,
que
a
su
vez
se
unen
entre
si
hasta
definir
dos
subconjuntos
Clustering
no
jerárquico
El
algoritmo
k-‐means
§ Proceso
itera-vo
que
permite
encontrar
un
determinado
número
de
subconjuntos
de
datos
que
minimizan
la
suma
de
distancias
a
sus
centroides
Análisis
de
Componentes
Principales
Extracción
de
caracterís0cas
§
Obtener
un
menor
número
de
atributos
que
representan
globalmente
la
información
presente
en
el
conjunto
de
datos
original
Clustering jerárquico
▪ Objetivo
▪ Algoritmo
▪ Ejemplo
▪ Conclusión
Objetivo
Clústering jerárquico
▪ Formar k agrupaciones de observaciones maximizando
tanto la similitud intra-grupos como la diferencia inter-
grupos.
▪ La distancia entre las observaciones permitirá realizar
grupos homogéneos pero heterogéneos entre sí.
▪ La media de las variables que conforman cada clúster
nos ayudará a la interpretación de cada grupo.
▪ Dibujar los resultados nos determinará el número de
clústeres a escoger.
Algoritmo
Preparación de los datos
▪ Antes de aplicar el algoritmo:
- Debemos eliminar los valores perdidos del conjunto
de datos original.
- Hemos de normalizar las variables en caso que las
unidades de medida sean distintas.
▪ De esta forma evitaremos distorsiones en la formación
de los grupos y eliminaremos los efectos producidos al
emplear distintas unidades de medida.
Algoritmo
Elección de la función de disimilitud o distancia
▪Existen muchos tipos. Las que R nos ofrece son, entre
otras:
- Distancia euclídea:
Algoritmo
Elección de la función de disimilitud o distancia
▪Existen muchos tipos. Las que R nos ofrece son, entre
otras:
- Distancia euclídea al cuadrado:
Algoritmo
Elección de la función de disimilitud o distancia
▪Existen muchos tipos. Las que R nos ofrece son, entre
otras:
- Distancia Manhattan o City-Block:
Algoritmo
Elección de la función de disimilitud o distancia
▪Existen muchos tipos. Las que R nos ofrece son, entre
otras:
- Distancia euclídea:
-Método de Ward.
• N = 152
•d =2