Вы находитесь на странице: 1из 52

T.

3: Anlise Previa
Datos: materia prima de todo mtodo estatstico
Son os valores que toman as variables
Datos Multivariantes

p variables

p > 2

n individuos
n: nmero de observacins ou tama!o da mostra.
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

Datos ori)inais
X=

x
11
x
21
x
p1
x
12
x
22
x
p2

x
1n
x
2n
x
pn
|
Matrices de datos
B=X
t
X matriz cos momentos mostrais de orde 2
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

Datos en desviacin respecto da media
X
d
=

x
11


x
1
x
21


x
2
x
p1


x
p
x
12

x
1
x
22


x
2
x
p2


x
p

x
1n

x
1
x
2n


x
2
x
pn


x
p
|
Matrices de datos
1
n
L=
1
n
X
d
t
X
d
=V matriz de varianzas-covarianzas
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

Datos tipi*icados: +ariable tipi*icada:
X
s
=

x
11


X
1
S
1
x
21


X
2
S
2

x
p1


X
p
S
p
x
12


X
1
S
1
x
22


X
2
S
2

x
p2


X
p
S
p

x
n1


X
1
S
n
x
n2


X
2
S
2

x
pn


X
p
S
p
|
Matrices de datos
x
ki


X
k
S
k
R=
1
n
X
s
t
X
s
matriz de correlacions
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

+ariable: p = w
1
(
1

+ w
2
(
2

+ ... + w
p
(
p
,bservacin: -
.
= w
1
x
1j

+ w
2
x
2j

+ ... + w
p
x
pj
Matricialmente: y = Xw
#ombinacin li!al de variables
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

Media mostral:
#ombinacin li!al de variables

Y=w
1


X
1
+w
2


X
2
++w
p


X
p
=

X
t
w

X
t
w=


X
1

X
2


X
p
|

w
1
w
2

w
p
|
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

Varianza mostral:
#ombinacin li!al de variables
S
y
2
=
1
n
y
d
t
y
d
=w
t
V w
T.3: Anlise Previa
y
d
=X
d
w=

y
1

Y
y
2

y
n

Y
|

x
11

x
1
x
21

x
2
x
p1


x
p
x
12

x
1
x
22

x
2
x
p2


x
p

x
1n

x
1
x
2n

x
2
x
pn


x
p
|
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

Media mostral: i / 01 21 .... 1 p
+arian2a mostral: i / 01 21 .... 1 p
Covarianza: i,k = 1, 2, .... , p
Correlacin: i,j = 1, 2, .... , p
'statstica Descriptiva
S
ik
=

j=1
n
(
x
ij

x
i
) (
x
kj


x
k
)
n
r
ij
=
Sij
S
i
S
j

x
i
=

j =1
n
x
ij
n
S
ii
=S
i
2
=

j =1
n
(
x
ij

x
i
)
2
n
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

x=

x
1

x
2

x
p
|
Medidas de centrali2acin: centroide
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

L= X
d
t
X
d
V=
1
n
L=

S
1
2
S
12
S
1p
S
21
S
2
2
S
2p

S
p1
S
p2
S
p
2
|
Medidas de variabilidade:
matri2 de +arian2as 3#ovarian2as
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

Varianza Xeralizada=determinante(S)=\
1
... \
p
Medidas de variabilidade:
Medidas 4lobais
T.3: Anlise Previa
VarianzaTotal=Traza(S)=\
1
+...+\
p
\
1,
... , \
p
autovalores de S
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

Coeficiente de correlacin lial:
R=
1
n
X
s
t
X
s
=

1 r
12
r
1p
r
21
1 r
2p

r
p1
r
p2
1
|
r
ki
=
S
ki
S
k
S
i
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
Medidas de dependencia li!al:
entre pares de variables

P=

1 r
12.3...p
r
1p.2... ( p1)
r
21.3...p
1 r
2p

r
p1.2...( p1)
r
p2.13... ( p1)
1
|
Medidas de dependencia li!al:
correlacin parcial
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

R
j.1,2 , ... , p
2
=
variabilidadeexplicada polaregresin
variabilidade total
T.3: Anlise Previa
Coeficiente de determinacin mltiple:

Medidas de dependencia li!al:
entre cada variable e o resto
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

p
2
=1R
Medidas de dependencia li!al:
4lobalmente
T.3: Anlise Previa
Propiedades:
3 5 1
3
2
/ 5 Tdalas variables incorreladas
3
2
/ 0 ')isten combinacins li!ais entre variables


T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

f
(
x
1,
x
2,
, x
p
)
= f ( X)=2
p
2
2
1
2
e

1
2
( X)
t
2
1
( X)
$ormal multivariante
T.3: Anlise Previa
Sendo o vector de esperanzas
a matriz de varianzas-covarianzas
(X
1
, X
2,
... , X
p
) ~ N( , ):

T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

=

X
1
|
E

X
2
|

X
p
|
|
=

p
|
$ormal multivariante
2=E
( X) ( X) |
t
=

u
1
2
u
12
S
1p
u
21
u
2
2
u
2p

u
p1
u
p2
u
p
2
|
T.3: Anlise Previa
vector de esperanzas
a matriz de varianzas-covarianzas
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

=

X
1
|
E

X
2
|
|
=

2
|
$ormal bivariante
2=

u
1
2
u
12
u
21
u
2
2
|
(X
1
, X
2
) ~ N(, ):
f ( x
1,
x
2
)=(2)
1
2
1
2
e

1
2
(
x
1

1
x
2

2
)
2
1

(
x
1

1
x
2

2
)
$ormal unidimensional:
T.3: Anlise Previa
f ( x
1,
x
2
)=(2)

1
2
u
1
e

1
2

( x)
2
u
2
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

=

X
1
|
E

X
2
|
|
=

2
|
$ormal bivariante
2=

u
1
2
u
12
u
21
u
2
2
|
(X
1
, X
2
) ~ N(, ):
f ( x
1,
x
2
)=(2)
1
e

1
2
(
x
1

1
x
2

2
)
2
1

(
x
1

1
x
2

2
)
p
ki
=
u
ki
u
k
u
i
Dado 6ue: 'ntn:
2=
(
u
1
2
p
21
u
1
u
2
p
12
u
2
u
1
u
2
2
)
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

7/87
1
1 7
2
,
... 1 7
p
) ~ Normal Multivariante
$ormal multivariante: Propiedades
T.3: Anlise Previa
- Combinacins liais de elementos de X ~ distribucin normal multivariante.
- Subconuntos de compoentes de X ~ distribucin normal multivariante.
- !istribucin condicional das compoentes ~ distribucin normal multivariante.
- Covarian"a entre d#as compoentes $ % independencia entre esas compoentes
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

T.3: Anlise Previa
,b)ectivo: Obter unha impresin inicial dos datos
Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

Descubrir a estructura dos datos

Identificar valores atpicos ou extremos

Observar relacins entre variables

Estudiar o cumprimento dos supostos



T.3: Anlise Previa
9ue *acer::
Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
Tarefas a realizar nunha anlise previa

Anlise Descriptiva Grfica e Numrica

Tratamento de Datos Ausentes

Deteccin de atpicos

Comprobacin dos supostos previos



T.3: Anlise Previa
Anlise ;r*ica e #lculo de Parmetros
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
+ Anlise grfica
Importancia da anlise visual:
permite unha aproximacin rpida as propiedades dos datos
+ Clculo de parmetros robustos
Evtase a influencia de valores atpicos ou extremos

T.3: Anlise Previa
Anlise ;r*ica
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
iagrama de sector
atos cualitativos
iagrama de barras

T.3: Anlise Previa
Anlise ;r*ica
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
!istograma
atos cuantitativos
ensidade

T.3: Anlise Previa
Anlise ;r*ica
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
"alo#e#follas $steam and leaf%
atos cuantitativos
2 < =>>>>>>>>
? < 55555000000000000000000002222222222222223333?=@@ABBBBBBBB>>>>>>>>>>>C3B
@ < 5500000002222222233333?????=====@@@@AAAAABBBBBB>5500000022222233333?CB
B < 550022233??????======@@AAAABB>>>>>5550223333=@@@@@ABBBBBBB>
05 < 555500002223333333?=@@@@AAABBB>>50022223??====@@AAB>
02 < 555522233333????====@@AABBB>5003???====@@ABBBB>
0? < 00023????====@@@@@AAABBB>550023????===@@@AAAAAAAB>
0@ < 5555223333?????@@ABB>>555503???====AB>
0B < 022?????===@AAAB222=@AAAABBB>>>>
25 < 5023???=====A>552?==AB
22 < 55023=AA500233??==@ABB
2? < 5B550@>>
2@ < 023??=@>2=>
2B < 50AB50?=
35 < 3==A>B
32 < 02A02
3? < 0
3@ < 03

T.3: Anlise Previa
Anlise ;r*ica
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
iagrama de caixa
atos cuantitativos
Mediana
#
3
C 0.=D8#
3
3#
0
E
Mnimo
#
3

#
0


T.3: Anlise Previa
Anlise ;r*ica
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
iagrama de dispersin
&idimensionais: atos cuantitativos

T.3: Anlise Previa
Anlise ;r*ica
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
"boa de continxencia
&idimensionais: atos cualitativos
carb
gear 1 2 3 4 6 8
3 3 4 3 5 0 0
4 4 4 0 4 0 0
5 0 2 0 1 1 1

T.3: Anlise Previa
Anlise ;r*ica
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
iagrama de barras
&idimensionais: atos cualitativos
iagrama de mosaico

T.3: Anlise Previa
Anlise ;r*ica
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
iagrama de barras bidimensional
&idimensionais: atos cualitativos

T.3: Anlise Previa
Anlise ;r*ica
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
'rficas por niveis
&idimensionais: 1 cuantitativa # 1 cualitativos

T.3: Anlise Previa
Anlise ;r*ica
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
iagrama de dispersin (
)ultidimensionais
)atri* de dispersin

T.3: Anlise Previa
Anlise ;r*ica
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
iagrama +#+
,utras grficas

T.3: Anlise Previa
Medidas e parmetros
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
)edidas de posicin
)ediana- Cuantiles- )edia aritm.tica $/ese afectada por valores
extremos%
Clculo de parmetros robustos
Evtase a influencia de valores atpicos ou extremos
)edidas de dispersin
/arian*a- esviacin tpica
)edidas de forma
Coeficientes de Asimetria e Curtose

T.3: Anlise Previa
Datos ausentes: Introduccin
Datos Ausentes
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
+ atos ausentes

Aparecen frecuentemente:

Individuos sen valores de ningunha variable

Individuos aos +ue falta s alg0n valor


+ 1roblemas

1oden introducir sesgos na anlise

2educen o tama3o da mostra



T.3: Anlise Previa
Datos ausentes: Tipos
Datos Ausentes
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
Datos ausentes totalmente aleatorios (MCAR):
non dependen de ningunha variable, observada ou non
Datos ausentes aleatorios (MAR):
Os datos faltantes dependen de variables observadas.
MCAR, MAR: categoras ignorables (casos mis fciles de tratar)
Datos ausentes non aleatorios (NMAR):
Os datos faltantes dependen de variables observadas e non
observadas. Existen pautas nos datos faltantes

T.3: Anlise Previa
Datos ausentes: Tratamento anlises previas
Datos Ausentes
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
Analizar porcentaxes de ausentes:
en que variables e en que individuos se producen.
Contrastes posibles para decidir o tipo de aleatoriedade
# Contraste de medias entre grupos de datos presentes e ausentes
# Correlacin entre variables dicotomi*adas $presentes#ausentes%
# Contrastes de aleatoriedade

Eliminar os individuos con valores ausentes
soese reali*ar cando hai poucas ausencias
Eliminar tdos os individuos con ausentes $list4ise%
Eliminar s das variables +ue se empreguen $pair4ise%
T.3: Anlise Previa
Datos ausentes: Tratamento Mtodos de supresin
Datos Ausentes
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

Inconvenientes:

pairwise: estaramos usando diferentes datos para diferentes anlises
Nos 2 casos:
-redcese o tamao da mostra, polo que diminuimos potencia.
- necesidade de ausencias totalmente aleatorias para que non exista o sesgo5
T.3: Anlise Previa
Datos Ausentes
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
Datos ausentes: Tratamento Mtodos de supresin

Buscan valores que reempracen aos ausentes
Imputacin media:
reemprzanse pola media da variable (ou a mediana).

moi simple, pouco recomendable: infraestima a dispersin, non evita


problemas de sesgo, altera as relacins entre as variables.
Asignacin aleatoria:
reemprzanse por valores da variable, seleccionados aleatoriamente.
T.3: Anlise Previa
Datos Ausentes
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
Datos ausentes: Tratamento Mtodos de imputacin

Imputacin por donacin:
reemprzanse por 'valores cercanos'.
-'Hot Deck' os valores tmanse do propio estudio
-'Cold Deck' os valores tmanse de estudios semellantes
T.3: Anlise Previa
Datos Ausentes
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
Datos ausentes: Tratamento Mtodos de imputacin

Imputacin por regresin:
reemprzanse por valores calculados mediante regresin.

-determinista: valores repetidos para individuos que coincidan nas demais
variables,
-aleatoria: valor calculado+factor aleatorio.
Deste xeito mellorase a estimacin da dispersion
T.3: Anlise Previa
Datos Ausentes
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
Datos ausentes: Tratamento Mtodos de imputacin

Algoritmo EM:
Aplica criterios de mxima verosimilitude
Baseado na seguinte idea:
- os ausentes son imputandos a partir de modelos estimados cos valores
coecidos,
- a partir dos novos datos reestmanse os modelos
- o algoritmo EM repite este proceso ata conseguir unha estabilidade na
imputacin.
T.3: Anlise Previa
Datos Ausentes
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
Datos ausentes: Tratamento Mtodos de imputacin

Imputacin mltiple:
Reptese o proceso de imputacin varias veces
Baseado na seguinte idea:
- obteense varios valores para imputar cada ausentes,
realzanse polo tanto varias anlises
T.3: Anlise Previa
Datos Ausentes
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
Datos ausentes: Tratamento Mtodos de imputacin

atos +ue pos0en valores +ue se apartan moito do comportamento
do conxunto5
T.3: Anlise Previa
+alores Anmalos
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
De*inicin

T.3: Anlise Previa
+alores Anmalos
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
Diagrama de caixas:
- valores normais: entre C
1
-1.5RI, C
3
+1.5RI
- valores atpicos: entre C
1
-1.5RI, C
1
-3RI
entre C
3
+1.5RI,C
3
+3RI
- valores extremos: por debaixo de C
1
-3RI
por encima de C
3
+3RI
Deteccin

+
Aparecen anmalos por erros de medida ou na recollida dos datos5 $correxir ou
eliminar%
+
Aparecen por situacins extraordinarias5 $eliminar%
+
/alores extremos dentro do propio rango de valores da variable5
+
, investigador non atopa un motivo para eles5 $reali*ar anlise con e sen eles%
T.3: Anlise Previa
+alores Anmalos
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
#lasi*icacin

S&apiro-'il(s )mostras pe*uenas)
+olmo,orov-Smirnov--illie.ors )mostras ,randes)
Contrastes de asimetr/a e curtose
0r1.icas de normalidade
T.3: Anlise Previa
#omprobacin de supostos previos
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
$ormalidade

2sim3trica 1 dereita ----- -o,)X4C)
2sim3trica 1 es*uerda -- -o,)C-X)
-eptoc#rtica ---------------- 15X
6latic#rtica ------------------ X
2
#omprobacin de supostos previos
$ormalidade
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante
7alta de normalidade8
Solucin9 un&a posibilidade : trans.ormacin das variables

6dese detectar mediante ,ra.icos de residuos.
;u mediante contrastes9 test de -evenne.
Solucin9 un&a posibilidade : trans.ormacin das variables tomando
lo,aritmos.
#omprobacin de supostos previos
Feterocedasticidade
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

2nali"ar a matri" de correlacins
<est de es.ericidade de =artlett - <est +M;
6osibles solucins9 ampliar a mostra ou suprimir al,una variable.
#omprobacin de supostos previos
Multicoli!alidade
T.3: Anlise Previa
T"#$%#A& '&TAT(&T%#A&
Anlise Multivariante

Вам также может понравиться