Вы находитесь на странице: 1из 23

En ocasiones, sospechamos, sabemos que los datos disponibles deben "agruparse" en "clases".

(mismo origen de
composicin, geogrfico o
histrico, mismo proceso
de preparacin, etc.)

Variables con valores
similares son objetos
prximos en el espacio.




Es difcil descubrir dichos dichos comportamientos (estructura) a partir de la tabla o por
comparacin de los datos correspondientes a una o pocas de las variables medidas.
El inters:
En el agrupamiento (confirmacin o no de las hiptesis) o la probabilidad de predecir un tipo u
otro de comportamiento y/o origen de los objectos, o tambin posibles relaciones entre las
variables.
OBJECTIVO: estudiar el agrupamiento en clases.
La hiptesis: existen variables dependientes? Bien de forma explcita o no.
TECNICAS DE RECONOCIMIENTO DE MODELOS
Posibilidades
Sabemos a qu categora No sabemos nada de antemano
pertenecen los grupos

Tengo cada objeto
definido en la categora a
la que pertenecen
(patrones)

Y defino el modelo
matemtico.





Mido distancias o correlaciones.
Hace lo mismo que PCA.

ANALISIS NO-SUPERVISADO. TECNICAS DE CLUSTER
El analisis de clster comprende un conjunto de tcnicas cuyo OBJECTIVO es :
Ordenar datos
Descubrir estructuras latentes en los datos
Clasificar en grupos, objetos caracterizados por sus propiedades cualitativas o
cuantitativas.
OBJECTIVO GLOBAL: Detectar grupos (clster, conglomerados) de objetos similares en la
matriz de datos disponible.
Dichos grupos pueden sugerir: "categoras" o "clases". Sirviendo as de orientacin para
posteriores estudios de clasificacin.

Anlisis supervisado Anlisis no supervisado
Las variables dependientes (de clase)
son explicitas (conocidas de
antemano). Se dispone de objetos
previamente clasificados que se
emplean para generar un modelo de
clasificacin predictivo.
Asumimos que a priori sabemos en
cuantos grupos o clases se deben
conglomerar los objetos (tcnicas en
las que disponemos de objetos
caractersticos o atribuidos a cada
una de las clases, con los que
entrenar el modelo predictivo para
su posterior utilizacin).
Las variables de pendientes no son
explicitas (desconocidas), pero puede
que existan.
Sospechamos que debe haber
agrupamientos, pero no sabemos
cuntos ni disponemos de objetos
caractersticos de los mismos.
Este segundo tipo de tcnicas es el +
general (asume un menor
conocimiento previo del problema).


Objetivo: desarrollar un modelo que
permita predecir a que clase
pertenecen futuros objetos
desconocidos.
Objetivo: visualizar la estructura de
agrupamientos de los datos y generar
hiptesis acerca de las clases
posiblemente existentes.
Ejemplos: LDA, KNN, SIMCA Ejemplos: Anlisis de clster.
El proceso de un anlisis de clster consta de 3 ETAPAS:
1. Caracterizacin de los objectos mediante un cierto nmero de variables
Las variables deben estar relacionadas con las caractersticas de los objetos que
tratamos de poner de manifiesto (las posibles clases).
La tabla de datos, frecuentemente debe someterse a pretratamiento (escalado).
2. Determinacin de la similaridad entre objectos o variables. la similaridad debe
expresarse numricamente (estamos hablando de tcnicas de tipo algortmico).
3. Obtencin del agrupamiento mediante un algoritmo clster.
Normalmente son algoritmos no-paramtricos porque raramente las muestras son
aleatorias, sino de forma sistemtica o sesgada tratando de "capturar" en los datos la
estructura de clases que vamos buscando.
Se asume conocimiento previo de los objetos o de o las variables que entrarn en juego y por
tanto, parten de un grado muy elevado de incertidumbre.
No podemos esperar la obtencin de resultados definitivos tras la ejecucin del proceso.
La informacin obtenida debe combinarse con las restantes tcnicas disponibles para la
elucidacin de estructuras (PCA).
Y deben ser confirmados mediante otras tcnicas complementarias y anlisis posteriores
ETAPA 2: MEDIDAS DE SIMILARIDAD.
Suelen dividirse en dos grupos.
A) Medidas de similaridad que hacen uso de matrices de covarianza o correlacin.
La covarianza entre dos variables (u objetos) es una medida de la "relacin" existente
entre ambas.
En consecuencia, dos variables (u objetos) con elevada covarianza son dos variables
muy relacionadas o "similares" y viceversa.
La correlacin es una covarianza normalizada cuyos valores oscilan entre -1 y +1.
Los objetos altamente correlacionados son similares mientras que son "distintos"
aquellos que son "independientes" es decir con valores de la correlacin prximos a
cero.
Por estar normalizada, la correlacin resulta ms cmoda e intuitiva de manejar. Por
esta razn suele preferirse a la covarianza.








Y= ax+b
R
2
=0,9999

Si el ngulo es pequeo los ptos. Se parecen ms. Si no hay correlacin las variables son
independientes.
Correlacin: medida de la covarianza normalizada.
Ambas medidas suelen utilizarse ms para variables.
Tambin se utiliza el coeficiente de correlacin referido al origen o "coeficiente de coseno"
cuya formulacin es:(ngulo que forman los dos vectores de posicin)




B) Medidas de similaridad basadas en distancias.
En la prctica, este segundo grupo se utiliza ms frecuentemente.
Admitimos que los objetos pueden representarse por "puntos" en espacio
multivariable.
Sus coordenadas son los valores que para cada objeto han producido las medidas de
las correspondientes variables que definen el espacio.
RESULTA:
Que dos "puntos" muy "prximos" en ese espacio sern aquellos en los cuales las
medidas de todas las variables hayan producido resultados muy parecidos muy
similares entre s.
Si una de las variables ha producido un resultado claramente diferente, los dos objetos
estarn alejados en el espacio "existen diferencias" entre ambos.
Las distancias han sido las medidas ms utilizadas en el anlisis clster para problemas
qumicos y de otros muchos tipos.
Distancia euclidea.: raz cuadrada de la suma de cuadrados de las diferencias entre los
valores. Es la medida por efecto para datos de intervalo.
Cuya interpretacin geomtrica es bien conocida:









(Se corrigen los efectos de correlacin entre variables)

Raz p-esima de la suma de las diferencias
absolutas elevada a la potencia p-esima entre los
valores.
Suma de las diferencias absolutas entre los
valores.





Problemas relacionados con la medida de la similaridad
Diferencia de escalas. En un mismo problema podemos encontrar variables de diversos tipos y
consecuentemente, utilizar diversas escalas.
Ejemplo: En las variables categricas, los valores numricos no pueden ser tratados de la
misma forma por los algoritmos cluster que las variables continuas
Una variable de categora 1 o 25 no puede compararse o entrar en operaciones algebraicas
con valores 1 o 25 obtenidos al medir la concentracin de una especie en los objetos.
Incluso para una misma variable pueden utilizarse valores numricos muy diferentes para
denotar categoras idnticas (objetos de las categoras 1 y 2 para un grupo de medidas
efectuadas en un laboratorio pueden ser alojadas en las categoras 10 y 20 en otro).
Importancia del escalado de los datos antes de abordar cualquier
tratamiento posterior.
La distancia euclidiana soporta mal la correlacin entre variables
Posibles soluciones:
Eliminar las variables fuertemente correlacionadas (estudio de correlacin previo)
Introducir medidas de similaridad que tomen en cuenta la correlacin (ej. distancia de
Mahalanobis)
Combinar las variables de manera que se obtenga una matriz inicial de variables no
correlacionadas (por ejemplo, trabajar con los componentes principales, que son ortogonales)




























Tcnicas de anlisis supervisado
Variables de caracterizacin Variables categora
Definir caractersticas de los objetos Identifican la clase a la que
pertenece el objeto.
GRUPO
ENTRENAMIENTO
objetos




Objeto
deseamos


"MODELO"
MODELOS DE CLASIFICACION PREDICCION
VALIDACION EXTERNA (ideal)
Qu objetos
se eligen para leverage (interna)
validar? INTERNA
cruzada

PREDICCION Cunto de bien predice?
"VALIDAR" chequear



Grupo de
entrenamiento











A

Grupo de prueba



B

?

A?
B?
Dejamos un
grupo fuera y
creamos el
modelo.









Evolucin histrica
Tcnicas de nivel 1 tablas verticales LDA, KNN
Requieren ms objetos que variables
Todos los objetos del grupo de aprendizaje estn correctamente clasificados
No existen ms clases que las inicialmente postuladas
Tcnicas de nivel 2 o superior SIMCA tablas horizontales
Permiten detectar clases imprevistas inicialmente
Permiten detectar la presencia de objetos mal clasificados en el grupo de
aprendizaje, capaz de detectar clases que no existan.
Clasificacin (M.Forina, 1997)
Probabilsticas (basadas en estimados de distribuciones de probabilidad)
Paramtricas (parmetros de localizacin y dispersin, media, varianza, etc.)
Clasificacin (Anlisis Lineal Discriminante LDA, Anlisis Discriminante Cuadrtico QDA,
Anlisis Discriminante Regularizado RDA).
Modelacin: UNEQ
Noparamtricas
Clasificacin: Mtodos de funciones de potencial.
Basadas en distancias (posibilidad de mtricas diversas)
Distancias entre objetos
Clasificacin: KNN (K vecinos ms prximos)
Modelizacin: Tcnicas de distancia interobjetos
Distancias entre objetos y modelos
Modelacin y clasificacin: SIMCA (Soft Independent Models Class Analogy)
Basadas en experiencia (regla de clasificacin se obtiene por prueba y error)
Clasificacin: Mquina de aprendizaje lineal (LLM), Mquinas de aprendizaje cuadrtico
(QLM), Redes neurales artificiales (ANN).
Clasificacin: Asignar una clase a cada uno de los objetos.
Modelizacin: Modelar una clase particular, el resto de objetos no pertenecen a esa clase, nos
da igual a que clase pertenecen.









Anlisis Lineal Discriminante (LDA)
El primero (Fisher, 1936)
Hiptesis:
Todas las clases tienen la misma distribucin multinormal:
misma varianza
Las clases se separan linealmente
Trabaja a Nivel 1
No acepta ms variables que casos y,
Funciona bien cuando hay 5 o menos clases
Es sensible a la correlacin entre variables
Trabaja en un espacio P dimensional, calculando una
superficie P1 (hiperplano) que separa las clases lo mejor
posible (P parmetros, luego N>>P para el clculo). Est
relacionada con la regresin mltiple. Mala separacin.
PCA: Direccin de mxima varianza.






F mxima
Vector de direccin del plano
que maximiza la
discriminacin entre clases.




F varianza interclases/varianza intraclases

Plano de separacin lineal de las clases

Plano definido
por la 1 variable
cannica. La
proyeccin de
las clases
produce max. F






Caso asimtrico
subgrupos
Cuando no existe plano de
separacin.


clases disjuntas separacin de las clases en
base a medias no de sus
varianzas.





Clases mal asignadas. Las clases plano lineal de separacin?
las establecemos nosotros. No se reconocen clases. Condicin: distribuciones
multinormales.

KNN (Kvecinos ms prximos)
Procedimientos basados en distancias (usualmente eucldeas). Menos restricciones que LDA.
La nica hiptesis de partida es asumir la existencia de una mtrica global o mtricas locales
relacionadas con la similaridad de los objetos.
Cada nuevo objeto se clasifica de acuerdo con su distancia a un cierto nmero (K) de objetos
del grupo de aprendizaje elegidos en orden creciente de lejana respecto al que queremos
clasificar.
Una vez calculadas las distancias se comprueba a que clase pertenecen los vecinos
asignando al nuevo objeto esa misma clase, o aquella a la que pertenecen la mayora de los
considerados.
Obviamente, el nmero K de vecinos considerados influye decisivamente en las conclusiones
del proceso. (Si K= 1 el resultado siempre es inequvoco pero la fiabilidad de la asignacin ser
muy pobre).

Solo tabla de distancias

KNN
Previamente ponerlos en la
misma escala.

Paso a nivel 2
--------- Region de densidad de probabilidad de cada
clase.


Mide probabilidades









SIMCA
Soft Independent Modeling of Class Analogy
El mtodo SIMCA fue la primera tcnica de modelizacin de clases introducida en Qumica
(Svante Wold, 1974).
SIMCA desarrolla un modelo de componentes principales para cada clase o categora; de una
forma independiente.
La prediccin para nuevos objetos se basa en la proyeccin de los datos para esos objetos en
los diferentes modelos de cada una de las clases y la estimacin de en cual de ellos genera los
menores residuales.( cuanto de lejos o cerca esta del centro del modelo)
El objetivo ltimo de SIMCA es la clasificacin pero, adems, proporciona una gran cantidad
de informacin acerca de la estructura de los datos, identifica los outliers, la existencia de
clases imprevistas y las variables que ms contribuyen a la modelacin de las propias clases.
Podemos medir distancias entre clases.

Datos originales PCA sobre conjuntos de datos






PCA sobre clase 1 PCA sobre clase 2







Residual dato original
Con los residuales podemos objeto
calcular la varianza y
comparar con el valor de F
de las tablas para cada una matriz loading (clase)
de las clases. E: matriz de residuales






Distancia interclases: (grado de separabilidad)
Se obtiene a partir de las estimaciones de los
Residuales al proyectar una clase sobre otra.
La medida es simtrica, D
12
=D
21
.
S
12
y S
21
no tienen porque serlo.

Вам также может понравиться