Вы находитесь на странице: 1из 31

Visualizacin de datos multivariables.

Proyecciones en espacios reducidos


Matriz de nubes de puntos (2D)

ANALYSE

Prof. Eric PIRARD (ULg)

Visualizacin de datos multivariables.

Proyecciones en espacios reducidos


Perspectivas 3-D; Falsos colores
Proyeccin en pantalla (2.5 D)
Combinacin de bandas
LANDSAT 542 en
Coipasa

Ti / Cr y S en sondajes de Telness (Norvge)

ANALYSE

Prof. Eric PIRARD (ULg)

Visualizacin de datos multivariables.

Representaciones simblicas

Caras de Chernoff de
6 muestras de Telness

ANALYSE

Geoqumica de Oro
imagen ASTER en MALI
Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Representacin matricial de datos


n observaciones y p variables => matriz nxp

objetos (casos)
->

tipo de medidas (variables)


->

x11

x21
.

.
x
n1

x12

. . x1 p

x22
.

. . x2 p
. . .

. . .
. . xnp

xn 2

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Representacin matricial de datos


Vector columna representando la jsima variable :

x1 j

x2 j
Xj
.

x
nj

Vector lnea representando la isima observacin :

X i xi1
ANALYSE

x i 2 . x ip
Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Parmetros de una distribucin multi-gausiana


Cada variable respeta una fon de distribucin normal
Existen p medias definiendo un vector medio :

1 i n
1 x i 1
n i 1
1 i n
2 xi 2
n i 1
...

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Propiedades del vector medio


Es el centro de gravedad del hiper-elipsoide formado por la
nube de puntos

V2

V3


p
V1
ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Parmetros de una distribucin multi-gausiana


Hay p varianzas y p.(1-p)/2 covarianzas definiendo una matriz
de covarianzas de tamao pxp :

1 i n
11 x i 1 1
n i 1

1 i n
12 x i 1 1 . x i 2 2
n i 1
...

ANALYSE

11

21

12
22

.. 1p

.. 2 p


..
.. .. ..

..

p
1
p
2
pp

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Propiedades de la matriz de covarianzas


La matriz es simtrica

ij ji

Las diagonales son las varianzas univariables

ii 2 x ni Var ( X i )

Una matriz diagonal expresa una decorrelacin perfecta (total


independencia de las variables)

11 0 ..

0 22 ..


..

ANALYSE

0
..

..

..

.. pp

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

La matriz de correlaciones

12

. . 1p

.
.
p1

.
.
p 2

. . 2 p
. . .

. . .
. . 1

21

ij

ij
ii . jj

Decorrelacin perfecta => Matriz identidad

ANALYSE

1 0 . . 0

0 1 . . 0
. . . . .

. . . . .
0 0 . . 1

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Propiedades de las combinaciones lineales de variables


Si las var x1 , x2 , ..., xp son gausianas :

Toda combinacin lineal ser gausiana :

Y aT X a1 X1 a2 X 2 ap X p

Ella tendr por media :

a1 1 a2 2 ap p
Y

Y por varianza :

Y aT .X

Y a T .
Var(Y) a T . . a

2 (Y) Var(Y) Var(a 1 X 1 a2 X 2 a p X p )


a1Var(X 1 ) a pVar(X p ) 2a1a p Cov(X 1 , X p ) ... 2a p -1a p Cov(X p -1 , X p )

ANALYSE

Prof. Eric PIRARD (ULg)

Tipologa de anlisis multivariables.

Inferencia
estimacin de los parmetros de la poblacin
Regresin mltiple
Investigacin de un modelo que se ajuste a la nube de puntos nD
Classificacin supervisada (Discriminante)
los grupos de observacin son diferentes ?
Classificacin no supervisada (Cluster)
existen conglomerados pronunciados en n-D
Reduccin de la dimensionalidad (ACP, AF)
investigacin de los componentes principales

combinaciones lineales tal que => matriz identitad

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Inferencia de la multigausiana
El vector medio es no-sesgado
i n

x p n1 . x ip
i 1

La matriz covarianzas se corrige por (n-1)

1
skj
. (xij x j ).(xik x k )
n 1 i
ANALYSE

kj

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Regresin lineal mltiple


Generalizacin del mtodo bivariable
Investigacin de todos los modelos posibles

Lneas, planos, hiper-planos,, polgonos,...

y 0 1.x1 2.x 2
y 0 1.x1 ... k .x k
y 0 1.x1 2.x 2 3.x1 x 2
y 0 1.x1 2.x 22

Minimizacin de la suma del cuadrado de los residuos

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Regresin en una superficie 3-D


291,2-7.14.x+16,5.y

Regresin en una superficie


cuadrtica
[Li=f(x,y,xy,x2,y2)]
de leyes en Li
en el Salar de
Coipasa 2
2
250+7,5.x+26,2.y-0,6.x
-1,1.x.y-0,4.y

Regresin en un plano
[Li=f(x,y)]
de leyes en Li
en el Salar de Coipasa

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis discriminante
UNIVARIABLE

una discriminacin
perfecta es posible
gracias a la variable X2
ANALYSE

X1

Anlisis de datos multivariables.

X2

Prof. Eric PIRARD (ULg)

Anlisis discriminante
BIVARIABLE

X1

Anlisis de datos multivariables.

X2
una discriminacin
perfecta necesita un
criterio conjunto f(X1, X2)
ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis discriminante
BIVARIABLE
no lineal

X1

Anlisis de datos multivariables.

X2

una discriminacin perfecta necesita


un criterio no lineal

en

f(X1, X2)
ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis discriminante
MULTIVARIABLE

X1

Anlisis de datos multivariables.


?

X2

una discriminacin perfecta necesita


un criterio suplementario

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Medida de distancia
Distancia entre un punto y una coleccin de muestras.

mE

0 puede ser la media de un lote de muestras (mE,sE)?


0

sE
0 mE t (1 ,N ) .
?
N
t

mE 0
sE / N

La medida de la distancia
N muestras de media
mE y desviacin tpica
sE

ANALYSE

entre un punto 0 y la media


de una serie de
observaciones se normaliza
por elerror
tipo. (ULg)
Prof. Eric PIRARD

Anlisis de datos multivariables.

Distancia entre dos grupos de muestras

los lotes (N1,m1,s1) et (N2, m2,s2) pertenecen a poblaciones


distintas ?
m1

m2

t N1 N1 2

m1 m2
s / 1 / N1 1 / N 2

La desviacin entre las


medias
se define proporcionalmente
Hiptesis implcita :
al error-tipo de esta
las poblaciones tienen la misma varianza
desviacin.
(homoscdasticit)
(cf. Sw. & S. - p.104)

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Anlisis Granulo-morfomtrico
de areniscas de ro y arenas trituradas

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

ELONGACION

WEAR INDEX

Comparaciones morfomtricas univariables


Intervalo de confianza alrrededor de la media (bleu)
Intervalo de confianza 68 % ms (rojo punteado)

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Comparaciones morfomtricas bivariables


Elipses de confianza a 68 % (rojo = triturado ; azul = ro)

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Comparaciones morfomtricas trivariables


rojo = triturado ; azul = ro

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Distancia en un espacio a p dimensiones entre un punto 0 y una nube de puntos

x .

Generalizacin de la distancia univariable


! Raiz de S !

Se busca la combinacin lineal Y=aT.X de las variables tal que la distancia con
aT. sea maximizada.
T

a . x 0 . N
aT .S.a

Los pesos son #

S 1. x 0

La distancia mxima (MAHALANOBIS) vale :

Dp N. x 0 .S 1. x 0

Rotacin delhipercubo para maximizar la proyeccin de la


distancia.

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Distancia en un espacio a p dimensiones entre dos nubes de puntos de igual


dispersin

Generalizacin de la distancia entre dos lotes de muestras

x A xB
a T .S.a

Esta distancia es mxima cuando

a T S 1. x A xB

La distancia de MAHALANOBIS vale entonces :

D p x A xB .S 1. x A xB

Fon de discrimination
Implcitamente las dos colecciones de muestras tienen igual
varianza.

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Clasificacin
Univariable

Probabilidad de pertenencia de una observacin x a una u otra


poblacin normal A B con A=B

F(x/B)
F(x/A)

x A x B
ou
f ( x / A ) f ( x / B )
+ probabilidad a priori

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis de datos multivariables.

Multivariable

Fase de aprendizaje (supervisin)

Probabilidad de pertenencia de una nueva observacin en


funcin de la distancia de Mahalanobis

x A , xB et S

1
1

x
.S
.
x

x
.S
. xB x
A
B
A
A
B

Clculo de tasas de reclasificacin de las muestras A y B


A
A
B
Total

ANALYSE

B
224
58
282
79%

62
301
363
83%

Total
286
359

78%
84%

Prof. Eric PIRARD (ULg)

Anlisis discriminante en mineralografa

Red vs. Blue

438nm vs.
692nm

ANALYSE

Prof. Eric PIRARD (ULg)

Anlisis discriminante en sedimentologa

Areniscas trituradas (2-9-10-11-12-13) y arenas de ro (1-3-4-5-8).

ANALYSE

Prof. Eric PIRARD (ULg)

Вам также может понравиться