Analise Fatorial - FranciscoCarvalho

Anlise Fatorial
Francisco Ricardo Duarte Carvalho

Anlise Fatorial
Francisco Ricardo Duarte Carvalho
Dissertao para a obteno do Grau de Mestre em Matemtica

rea de Especializao em Estatstica, Otimizao e Matemtica Financeira
Jri
Presidente: Maria Emlia Mesquita Nogueira

Orientador: Cristina Maria Tavares Martins
Vogais: Maria Emlia Mesquita Nogueira
Maria da Graa Santos Temido Neves Mendes
Data: Setembro 2013

Resumo
A anlise fatorial um mtodo estatstico multivariado cujo objetivo
agrupar p variveis aleatrias, X1 , . . . , Xp , em grupos formados por
variveis fortemente correlacionadas. Tais grupos constituem os cha-
mados fatores ou variveis latentes. Os fatores so variveis aleatrias
no observveis, preferencialmente em nmero inferior ao das variveis
originais. Neste trabalho, considera-se o modelo fatorial ortogonal, no
qual os fatores so ortogonais dois a dois. No modelo fatorial, cada
varivel original escrita como combinao linear dos fatores comuns
adicionada de um fator especfico. Para estimar os coeficientes dos fato-
res comuns, denominados pesos fatoriais, so abordados dois mtodos,
nomeadamente, o mtodo das componentes principais e o mtodo da m-
xima verosimilhana, sendo o primeiro desenvolvido com mais pormenor.
Neste sentido, comea-se por definir e obter as componentes principais
de uma populao. O procedimento correspondente envolve os valores
prprios e os vetores prprios da matriz de correlaes ou da matriz de
varincias-covarincias das variveis X1 , . . . , Xp . Seguidamente, obtm-
se as componentes principais amostrais e apresentam-se estimadores para
os parmetros envolvidos, em particular, estimadores de mxima verosi-
milhana no caso em que o vetor aleatrio [X1 . . . Xp ]T tem distribuio
normal multivariada.
Referem-se vrios critrios para escolher o nmero m de fatores,
m < p, e, considerando os fatores como eixos ortogonais, aborda-se a
rotao ortogonal dos mesmos, com vista a facilitar a sua interpretao.
Apesar dos fatores comuns serem variveis no observveis, possvel
estimar o valor de cada fator (score) para cada indivduo da amostra.
Neste trabalho referem-se dois mtodos para atingir esse objetivo: o
mtodo dos mnimos quadrados ponderados e o mtodo da regresso.
Finalmente, apresenta-se um exemplo de aplicao da anlise fatorial,
desenvolvido com recurso ao software SPSS.
Palavras Chave:
Anlise fatorial, componentes principais, matriz de varincias-covarincias, valores

e vetores prprios, lei normal multivariada, estimadores de mxima verosimilhana.
Abstract
Factor analysis is a multivariate statistical method with the objec-
tive of grouping p random variables X1 , . . . , Xp in groups formed by
strongly correlated variables. These groups are called factors or latent
variables. The factors are unobservable random variables, preferably in
smallest number that the original variables. In this work, is considered
the orthogonal factorial model, in which the factors are orthogonal two
i
by two. In factor analysis model, each original variable is written as a
linear combination of the common factors and added to a specific factor.
To estimate the coefficients of common factors, called loadings, we will
see two methods, namely, the method of principal components and the
method of maximum likelihood, the first being developed in more detail.
We starts by define and obtain principal components of a population.
The corresponding procedure involves the eigenvalues and eigenvectors
of the correlation matrix or the variance-covariance matrix of the vari-
ables X1 , . . . , Xp . Then, we obtain the principal components of sample
and we present the estimators for involved parameters, in particular, ma-
ximum likelihood estimators in case that the random vector [X1 . . . Xp ]T
has multivariate normal distribution.
We refer several criteria to choose the number m of factors, m < p,
and, considering the factors as orthogonal axes, we study the orthogonal
rotation, to facilitate their interpretation.
Although the common factors are unobservable variables, we can es-
timate the value of each factor (score) for each element of sample. In
this work we refer two methods to achieve this objective: the method of
weighted least squares and the regression method.
Finally, we present an example of application of factor analysis, de-
veloped using the SPSS software.
Keywords: Factor analysis, principal components, variance-covariance matrix,
eigenvalues and eigenvectors, multivariate normal distribution, maximum likelihood

estimators.
ii
iv
Agradecimentos
com muita satisfao que agradeo a todos aqueles que, direta
ou indiretamente, tornaram a realizao desta dissertao de mestrado
possivel.
minha orientadora, a Doutora Cristina Maria Tavares Martins, pela
sua disponibilidade, acompanhamento no estudo e pacincia.
minha namorada, Ana Gonalves, por todo o apoio, pela sua com-
preenso e encorajamento.
minha me, pelo enorme apoio que tem oferecido ao longo destes
anos.
Ao meu pai, que embora j no esteja comigo, me incutiu princpios
que tento seguir, entre os quais, nunca desistir.
v
Contedo
1 Introduo 1
2 Componentes principais 5
2.1 Deduo das componentes principais . . . . . . . . . . . . . . . . . . 6
2.2 Estimao em componentes principais . . . . . . . . . . . . . . . . . 13
2.2.1 Componentes principais amostrais . . . . . . . . . . . . . . . 13
2.2.2 Estimao de parmetros . . . . . . . . . . . . . . . . . . . . 15
3 Anlise fatorial 23
3.1 Modelo ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Adequao da aplicao do modelo fatorial . . . . . . . . . . . . . . 26
3.3 Extrao dos fatores . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Mtodo das componentes principais . . . . . . . . . . . . . . 27
3.3.2 Mtodo da mxima verosimilhana . . . . . . . . . . . . . . . 28
3.4 Escolha do nmero de fatores . . . . . . . . . . . . . . . . . . . . . . 29
3.5 Rotao dos fatores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.6 Scores fatoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.6.1 Mtodo dos mnimos quadrados ponderados . . . . . . . . . . 35
3.6.2 Mtodo da regresso . . . . . . . . . . . . . . . . . . . . . . . 36
3.6.3 Relao entre as estimativas obtidas pelos dois mtodos . . . 37
4 Exemplo de aplicao da Anlise Fatorial 39

4.1 Anlise preliminar dos dados . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Aplicao da anlise fatorial . . . . . . . . . . . . . . . . . . . . . . . 41
vii
Captulo 1
Introduo
As diversas cincias tm a pretenso de conhecer a realidade e de interpretar os

acontecimentos, baseadas em variveis intervenientes consideradas importantes nes-
ses eventos. Frequentemente, tais variveis so em nmero muito elevado e natural
que muitas delas sejam fortemente correlacionadas. Neste contexto, a anlise fato-
rial surge como um procedimento estatstico que permite reduzir a complexidade do
problema original, agrupando p variveis aleatrias, X1 , . . . , Xp , em grupos forma-
dos por variveis fortemente correlacionadas. Estes grupos do origem aos fatores
ou variveis latentes que so variveis aleatrias no observveis, preferencialmente
em nmero inferior ao das variveis originais. Alm disso, variveis correspondentes
a fatores distintos devem apresentar correlaes pequenas.
Para ilustrar o contexto de aplicao da anlise fatorial, considere-se o caso

em que o diretor de uma fbrica de automveis pretende entender o que leva o
consumidor a escolher determinado modelo especfico de automvel, de forma a
direcionar a produo nesse sentido. Para isso, foram consideradas as opinies dos
consumidores relativamente importncia de 14 variveis na sua deciso (custos de
reparao baixos, espao interior amplo, facilidade de manuseamento, bom motor,
...). O elevado nmero de variveis dificulta a sua avaliao e consequentemente
o desenvolvimento de planos de ao. Aplicando a anlise fatorial, as 14 variveis
passam a constituir 4 fatores relacionados com o conforto, a relao custo/eficincia,
o estilo e a facilidade de manipulao, simplificando significativamente a tarefa do
diretor.
Historicamente, a ideia subjacente anlise fatorial atribuda aos psiclogos,

que sempre tentaram uma descrio clara e organizada das habilidades intelectuais
e comportamentos humanos, surgindo a noo primitiva de fator (ou constructo, na
rea da psicologia). No entanto, foi Karl Pearson (1901) o primeiro a introduzir a
anlise fatorial. Mais tarde, Charles Spearman (1904) publicou um artigo no qual
menciona as bases da anlise fatorial.
1
Captulo 1 Introduo
O modelo fatorial constitudo pelos fatores F1 , . . . , Fm , m p, definido por
X1 1 = 11 F1 + 12 F2 + . . . + 1m Fm + 1
X2 2 = 21 F1 + 22 F2 + . . . + 2m Fm + 2
...
Xp p = p1 F1 + p2 F2 + . . . + pm Fm + p ,
onde ij so coeficientes reais, chamados pesos fatoriais (loadings), i o valor mdio

da varivel Xi e i uma varivel aleatria que constitui o chamado fator especfico
da varivel Xi , i = 1, . . . , p. Note-se que cada fator especfico est associado apenas
a uma varivel, enquanto os fatores F1 , . . . , Fm esto associados a todas as variveis.
Chamam-se, por isso, fatores comuns. O modelo fatorial mais usado o modelo
fatorial ortogonal, no qual os fatores so no correlacionados e tm varincia 1.
Um dos problemas associados anlise fatorial a estimao dos pesos fatoriais.
Os mtodos mais comuns para efetuar esta estimao so o mtodo das componentes
principais e o mtodo da mxima verosimilhana. Este ltimo parte do pressuposto
de que o vetor aleatrio X = [X1 . . . Xp ]T normal multivariado. O mtodo das
componentes principais no faz exigncias sobre a distribuio de X sendo, por isso,
o mais usado na prtica. Tal como o nome indica, baseado nas componentes prin-
cipais, Y1 , . . . , Yp , associadas s variveis X1 , . . . , Xp . As componentes principais so
combinaes lineares normalizadas destas variveis iniciais, no correlacionadas en-
tre si e com varincias decrescentes, ou seja, V (Y1 ) . . . V (Yp ). Frequentemente
as variveis X1 , X2 , . . . , Xp so de natureza diversa e algumas delas tm disperses
muito diferentes, pelo que habitual considerarem-se as componentes principais
obtidas das correspondentes variveis standardizadas, Z1 , . . . , Zp .
Dada a sua importncia, o captulo 2 deste trabalho dedicado obteno das

componentes principais de uma populao e estimao dos parmetros subjacentes.
O procedimento correspondente determinao das componentes principais envolve
os valores prprios e os vetores prprios da matriz de correlaes ou da matriz de
varincias-covarincias do vetor aleatrio X bem como o mtodo dos multiplicadores
de Lagrange.
No captulo 3 estuda-se o modelo ortogonal de anlise fatorial. Depois da de-

finio do modelo, deduzem-se algumas propriedades decorrentes dos pressupostos
envolvidos. Em particular, mostra-se que o peso fatorial ij corresponde covari-
2
1.0
ncia entre a varivel Xi e o fator Fj , pelo que aquele coeficiente uma medida da
relao entre Xi e Fj . Assim, os pesos fatoriais elevados (em valor absoluto) identifi-
cam o fator a que cada varivel se associa. Outra propriedade importante prende-se
com o facto da matriz dos pesos fatoriais no ser nica, podendo ser rotacionada
de modo a produzir novos pesos fatoriais. No entanto, esta rotao no altera a
varincia de Xi , i = 1, . . . , p.
Na prtica, s faz sentido aplicar a anlise fatorial se as variveis X1 , . . . , Xn fo-
rem correlacionadas. Para verificar se os dados corroboram esta hiptese, apresentam-
se dois procedimentos, nomeadamente, o teste de esfericidade de Bartlett, desenvol-
vido sob a hiptese de normalidade do vetor aleatrio X, e a estatstica KMO que
no envolve condies sobre a distribuio de probabilidade de X. Apresentam-se os
mtodos de estimao dos pesos fatoriais j mencionados, destacando-se o mtodo
das componentes principais, e referem-se processos para escolher do nmero de fa-
tores a considerar na anlise fatorial que, como j foi indicado, devem ser em menor
nmero do que as variveis iniciais.
Os m fatores determinados podem ser vistos como um sistema de eixos no qual
se representam os p pontos (i1 , . . . , im ), i = 1, . . . , p. Tendo em conta o que foi
referido sobre a rotao da matriz dos pesos fatoriais, tais eixos podem ser rotaci-
onados com o objetivo de conseguir que os pesos fatoriais elevados (resp., baixos)
fiquem ainda mais elevados (resp., baixos) de modo a facilitar a interpretao dos
fatores. Existem vrios processos para escolher a matriz de rotao correspondente.
Neste trabalho damos especial ateno ao mtodo Varimax.
Apesar dos fatores comuns serem variveis no observveis, possvel estimar o
valor de cada fator (score) para cada indivduo da amostra. O captulo 3 termina com
a apresentao de dois mtodos para fazer essa estimao: o mtodo dos mnimos
quadrados ponderados e o mtodo da regresso.
No ltimo captulo, apresenta-se um exemplo de aplicao da anlise fatorial,
desenvolvido com recurso ao software SPSS.
3
Captulo 1 Introduo
4
Captulo 2
Componentes principais
O objetivo essencial da anlise de componentes principais descrever a estrutura

de covarincias entre p variveis aleatrias reais, X1 , X2 , . . . , Xp , efetivamente cor-
relacionadas entre si, num outro conjunto de p variveis no correlacionadas que
expliquem a estrutura de varincias-covarincias das variveis iniciais. Estas novas
p variveis resultam de combinaes lineares normalizadas das variveis originais e
constituem as componentes principais.
O processo subjacente obteno das componentes principais construtivo na

medida que, a cada passo, se impe que a nova componente principal seja no corre-
lacionada com as anteriores e que as componentes principais surjam com varincias
decrescentes.
Frequentemente as variveis X1 , X2 , . . . , Xp so de natureza diversa e algumas

delas tm disperses muito diferentes, pelo que habitual considerarem-se as cor-
respondentes variveis standardizadas, Z1 , Z2 , . . . , Zp . Neste sentido, deduzem-se,
na seco 2.1, as componentes principais, Y1 , Y2 , . . . , Yp , associadas s variveis ale-
atrias standardizadas e apresentam-se resultados que relacionam a estrutura de
correlaes destes dois conjuntos de variveis. Apresentam-se ainda as componentes
principais associadas s variveis iniciais, X1 , X2 , . . . , Xp , e deduzem-se os resultados
correspondentes.
Na prtica, no conhecemos a matriz de correlaes nem a matriz de varincias-

covarincias, pelo que as componentes principais so estimadas a partir da matriz
de correlaes ou da matriz de varincias-covarincias de uma amostra aleatria
do vetor aleatrio real X. Tais componentes principais estimadas designam-se por
componentes principais amostrais e so introduzidas na seco 2.2. Nesta seco
faz-se tambm a estimao da matriz de varincias-covarincias, bem como dos
seus valores prprios e vetores prprios associados. Em particular, determinam-se
estimadores de mxima verosimilhana no caso em que X segue uma lei normal
multivariada. Analisa-se ainda a centricidade dos estimadores obtidos.
5
Captulo 2 Componentes principais
2.1. Deduo das componentes principais
Seja X = [X1 X2 . . . Xp ]T um vetor aleatrio real de dimenso p com vetor mdia

= [1 2 . . . p ]T e matriz de varincias-covarincias . Seja Z = [Z1 Z2 . . . Zp ]T
o vetor aleatrio das correspondentes variveis standardizadas, isto ,
Xj j
Zj = ,
j
com j2 = V (Xj ), j = 1, 2, . . . , p. Tendo em conta que
1
Cov(Zi , Zj ) = Cov(Xi , Xj ), i, j = 1, . . . , p,
i j
a matriz de varincias-covarincias de Z coincide com a matriz de correlao de X,
que aqui designamos por C.
O vetor aleatrio real Z tem associadas p componentes principais, Y1 , Y2 , . . . , Yp ,
tais que
p
X
Yj = a1j Z1 + a2j Z2 + . . . apj Zp = aij Zi , j = 1, 2, . . . , p,
i=1
onde os coeficientes aij , i, j = 1, 2, . . . , p, so constantes reais satisfazendo determi-

nadas condies. As p componentes principais podem ser representadas na forma
matricial Y = AT Z, com A = [aij ]i,j=1,2,...,p .
Prova-se facilmente que o vetor mdia e a matriz de varincias-covarincias de
Y so, respetivamente,
Y = 0 e Y = AT CA.
De facto, Y = E(AT Z) = AT E(Z) = 0. No que diz respeito matriz de varincias-

covarincias Y , considere-se o seu elemento genrico Cov(Yr , Ys ). Como Y = 0,
tem-se
p
X p
X
!
Cov(Yr , Ys ) = E(Yr Ys ) = E air Zi ais Zi
i=1 i=1
p X
X p
= air ajs E(Zi Zj )
i=1 j=1
Xp X p
= air ajs Cov(Zi , Zj )
i=1 j=1
= aTr C as , r, s = 1, 2, . . . , p, (2.1)
onde aj representa a j-sima coluna de A, j = 1, 2, . . . , p. Ora aTr C as precisamente

o elemento da linha r e da coluna s da matriz AT C A.
As condies a que devem obedecer os coeficientes aij , i, j = 1, 2, . . . , p, so as
seguintes:
6
2.1 Deduo das componentes principais
V (Y1 ) V (Y2 ) . . . V (Yp );

aTj aj = 1 , j = 1, 2, . . . , p;
Cov(Yj , Yk ) = 0, j 6= k, j, k = 1, 2, . . . , p.
Assim, o vetor a1 determinado de forma a maximizar a varincia de Y1 e tal que
aT1 a1 = 1 e, para j = 2, . . . , p, o vetor aj determinado de forma a maximizar a
varincia de Yj , satisfazendo aTj aj = 1 e Cov(Yk , Yj ) = 0, k < j.
No que se segue, admitimos que a matriz C definida positiva. O primeiro resul-
tado desta seco estabelece que as componentes principais associadas s variveis
aleatrias Z1 , . . . , Zp so determinadas custa dos valores prprios e dos vetores
prprios da matriz C. Como esta matriz definida positiva, os seus valores prprios
so todos positivos.
Teorema 1. Sejam 1 2 . . . p > 0 os valores prprios da matriz C e

ej = [e1j e2j . . . epj ]T um vetor prprio normado associado a j , j = 1, 2, . . . , p. A
j-sima componente principal do vetor aleatrio Z dada por
Yj = eTj Z = e1j Z1 + e2j Z2 + . . . + epj Zp , j = 1, . . . , p.
Tem-se ainda que

V (Yj ) = j e Cov(Yj , Yk ) = 0, j 6= k, j, k = 1, ..., p.
Demonstrao. Usamos o mtodo multiplicadores de Lagrange para determinar

a1 = [a11 a21 . . . ap1 ]T de modo a maximizar V (Y1 ) sujeito a aT1 a1 = 1.
De (2.1), tem-se V (Y1 ) = aT1 Ca1 . Considerem-se as funes
p X
X p
f (a1 ) = f (a11 , a21 , . . . , ap1 ) = V (Y1 ) = aT1 Ca1 = ai1 ak1 Cov(Zi , Zk )
i=1 k=1
e
p
X
g(a1 ) = g(a11 , a21 , . . . , ap1 ) = aT1 a1 1 = a2i1 1.
i=1
A funo de Lagrange dada por
1 (a1 ) = aT1 Ca1 l(aT1 a1 1),

onde l o multiplicador de Lagrange. O mximo da funo ser soluo do sistema

f = lg f = lg

(2.2)
aT1 a1 = 1

g = 0

Relativamente ao gradiente de g, tem-se
g
= 2aj1 , j = 1, 2, . . . , p.
aj1
7
Quanto ao gradiente de f , verifica-se que

p
f X
=2 ak1 Cov(Zk , Zj ), j = 1, . . . , p.
aj1 k=1
De facto,
p p
f XX
= (ai1 ak1 Cov(Zi , Zk ))
aj1 i=1 k=1
aj1
p p X p
X 2 X
= ai1 V (Zi ) + (ai1 ak1 Cov(Zi , Zk ))
i=1
aj1 i=1 k=1
aj1
k6=i
p p
X X
= 2aj1 V (Zj ) + (aj1 ak1 Cov(Zj , Zk )) + (ai1 aj1 Cov(Zi , Zj ))
k=1
aj1 i=1
aj1
k6=j i6=j
X p p
X
= 2aj1 V (Zj ) + ak1 Cov(Zj , Zk ) + ai1 Cov(Zi , Zj )
k=1 i=1
k6=j i6=j
Xp
= 2aj1 V (Zj ) + 2 ak1 Cov(Zk , Zj )
k=1
k6=j
p
X
=2 ak1 Cov(Zk , Zj ).
k=1
Ento
p
X
f = lg ak1 Cov(Zk , Zj ) = l aj1 , j = 1, 2, . . . , p
k=1

a11
h i
.
Cov(Z1 , Zj ) . . . Cov(Zp , Zj ) .
. = l aj1 , j = 1, . . . , p

ap1
Ca1 = l a1
(C l Ip )a1 = 0,
onde Ip representa a matriz identidade de ordem p.

Para encontrar uma soluo a1 6= 0 da equao (C l Ip )a1 = 0, a matriz C lIp
deve ser singular, isto , det(C lIp ) = 0. Por outro lado, atendendo a (2.2)
V (Y1 ) = aT1 Ca1 = aT1 la1 = l.
Desta forma, para que V (Y1 ) seja mxima, devemos utilizar a maior das p razes
reais do polinmio det(C lIp ), ou seja, o maior valor prprio de C, 1 . Conse-
quentemente, obtm-se a1 = e1 , atendendo restrio aT1 a1 = 1. Assim, a primeira
componente principal dada por Y1 = eT1 Z.
8
O passo seguinte consiste em encontrar a2 de forma a maximizar V (Y2 ) de modo

que Cov(Y2 , Y1 ) = 0 e aT2 a2 = 1. Tendo em conta que E(Yj ) = 0, j = 1, 2, . . . , p,
tem-se
Cov(Y2 , Y1 ) = E(Y2 Y1 ) = E(aT2 ZZT e1 ) = aT2 Ce1 = 1 aT2 e1 .
Considerem-se as funes
f (a2 ) = V (Y2 ) = aT2 Ca2
g1 (a2 ) = aT2 a2 1
g2 (a2 ) = 1 aT2 e1
A funo de Lagrange ento dada por

2 (a2 ) = aT2 Ca2 l1 (aT2 a2 1) l2 1 aT2 e1 ,
onde l1 e l2 so multiplicadores de Lagrange. Efetuando clculos anlogos aos do

caso anterior, tem-se que o mximo da funo soluo do sistema

f = l1 g1 + l2 g2

2Ca2 = 2l1 a2 + l2 1 e1

g1 = 0 aT2 a2 1 = 0 (2.3)

aT e1 = 0

g2 = 0

2
Multiplicando ambos os membros da primeira equao de (2.3), esquerda, por eT1

resulta, atendendo a que a matriz C simtrica e eT1 a2 = (aT2 e1 )T = 0,
2Ca2 = 2l1 a2 + l2 Ce1 2eT1 Ca2 2l1 eT1 a2 l2 1 eT1 e1 = 0
2aT2 Ce1 l2 1 = 0
21 aT2 e1 l2 1 = 0
l2 = 0,
uma vez que 1 > 0. A primeira igualdade de (2.3) ento equivalente a Ca2 = l1 a2 .
Temos assim um caso anlogo ao anterior, obtendo-se l1 = 2 e a2 = e2 , vetor prprio
de norma 1 associado ao valor prprio 2 . A segunda componente principal ento
dada por Y2 = eT2 Z.
De uma forma geral, para gerar a j-sima componente principal, j = 2, . . . p,
determina-se aj de forma a maximizar a varincia de Yj = aTj Z, sujeito a aTj aj = 1
e no correlao de Yj com Y1 , . . . , Yj1 . Sejam
f (aj ) = V (Y2 ) = aTj Caj
g1 (aj ) = aTj aj 1
gi (aj ) = i1 aTj ei1 , i = 2, . . . , j
9
A funo de Lagrange agora

j
X
j (aj ) = aTj Caj l1 (aTj aj 1) li i1 aTj ei1 ,
i=2
onde l1 , l2 , . . . , lj so multiplicadores de Lagrange. O mximo de j soluo do
sistema
j j

X X
f = l g + li gi 2 Ca = 2 l a + li i1 ei1

1 1 j 1 j

i=2
i=2
(2.4)

g1 = 0
aTj aj 1 = 0

g = 0, i = 2, . . . , j aT e
j i1 = 0, i = 2, . . . , j

i
Aps multiplicarmos ambos os membros da primeira igualdade de (2.4) por eTj1 ,

esquerda, obtm-se lj = 0, de modo anlogo ao caso anterior. Aquela igualdade
ento equivalente a
j1
X
2 Caj = 2 l1 aj + li i1 ei1 .
i=2
Seguidamente, a multiplicao de ambos os membros desta igualdade por eTj2 ,

esquerda, conduz a lj1 = 0. Este procedimento , pois, repetido j 1 vezes,
concluindo-se que l2 = . . . = lj = 0. Assim, a primeira igualdade de (2.4) equiva-
lente a (C l1 Ip )aj = 0. Obtm-se ento, analogamente aos casos anteriores, l1 = j
e aj = ej . A j-sima componente principal ento dada por Yj = eTj Z.
Note-se que a componente principal Yj , j = 1, . . . , p, no nica por no ser

nico o vetor ej . No entanto, quando o valor prprio j tem multiplicidade 1,
caso em que h duas possibilidades (simtricas) para a escolha de ej , podemos ter
unicidade se fixarmos ej como o vetor cuja primeira componente no nula positiva.
A proposio seguinte estabelece que, no seu conjunto, as componentes principais
mantm a varincia total das variveis iniciais.
Proposio 1. Sejam Y1 , Y2 , . . . , Yp as p componentes principais correspondentes

s variveis aleatrias reais Z1 , Z2 , . . . , Zp . Tem-se
p
X p
X
V (Yj ) = V (Zj ) = p.
j=1 j=1
Demonstrao. Seja a matriz cujas colunas so os vetores prprios e1 , . . . , ep asso-

ciados aos valores prprios 1 , . . . , p , respetivamente, da matriz C. Como e1 , . . . , ep
10
so normados e mutuamente ortogonais, a matriz ortogonal e tem-se

1 0 ... 0

T
0 2 . . . 0
Y = C, com Y = .

. .. ..
. . .

0 0 . . . p
Ento
p
X p
X
V (Yj ) = tr(Y ) = tr(T C) = tr(T C) = tr(C) = V (Zj ) = p.
j=1 j=1
Este resultado permite afirmar que a proporo da varincia total das variveis
standardizadas explicada pela j-sima componente principal dada por
j
, j = 1, 2, . . . , p.
p
Assim, a percentagem de varincia total explicada pelas k primeiras componentes

principais, k p,
1 + 2 + . . . + k
100%.
p
Se grande parte da percentagem da varincia total for atribuda s primeiras k
componentes principais (k < p), ento estas podem ser usadas em vez das p variveis
Z1 , Z2 , . . . , Zp sem perda significativa de informao.
No resultado seguinte, verifica-se que o coeficiente de correlao entre a compo-
nente principal Yj e a varivel Zk , proporcional componente ekj do vetor prprio
ej , j, k = 1, 2, . . . , p.
Proposio 2. Sejam Y1 , Y2 , . . . , Yp as componentes principais das variveis alea-

trias reais Z1 , Z2 , . . . , Zp . O coeficiente de correlao entre Yj e Zk dado por

(Yj ,Zk ) = ekj j , j, k = 1, 2, . . . , p.
Demonstrao. Para cada k = 1, . . . , p, tem-se Zk = uTk Z, onde uTk = [0 . . . 0 1 0 . . . 0],

com o valor 1 na posio k. Como Yj = eTj Z, obtemos
Cov(Zk , Yj ) = Cov(uTk Z, eTj Z) = uTk Cej
= uTk j ej = j ekj , j, k = 1, . . . , p.
11
Assim
Cov(Yj , Zk ) j ekj q
(Yj ,Zk ) = q = p = ekj j , j, k = 1, 2, . . . , p.
j
p
V (Yj ) V (Zk )
Como j foi referido, as componentes principais tambm podem ser obtidas atra-
vs das variveis originais, X1 , . . . , Xp . Neste caso, o processo de obteno das
componentes principais anlogo ao que foi descrito para as variveis standar-
dizadas, usando agora a matriz de varincias-covarincias, , do vetor aleatrio
X = [X1 X2 . . . Xp ]T . No entanto, se o vetor mdia, , de X for diferente de zero, o
referido procedimento envolve clculos mais elaborados.
Continuaremos a usar as notaes Yj , j e ej , j = 1, . . . , p, com o mesmo signi-
ficado, mas agora relativamente s variveis X1 , . . . , Xp e matriz .
Analogamente ao resultado obtido na seco anterior para as variveis standar-
dizadas, a componente principal Yj associada s variveis X1 , X2 , . . . , Xp dada
por
Yj = eTj X, j = 1, . . . , p.
Alm disso, usando em vez de C na demonstrao da proposio 1, obtm-se

p
X p
X
V (Yj ) = V (Xj ),
j=1 j=1
ou seja, a varincia total das variveis originais tambm preservada pelo conjunto
das correspondentes componentes principais. Neste caso, a proporo de varincia
j
total explicada pela j-sima componente principal , j = 1, . . . , p.
1 + . . . + p
O resultado correspondente proposio 2 para as variveis X1 , . . . , Xp , como
facilmente se verifica,
p
ekj j
(Yj ,Xk ) =p , j, k = 1, 2, . . . , p.
V (Xk )
Finalmente, como se ilustra no exemplo seguinte, notamos que as componentes

principais correspondentes s variveis originais no so, em geral, iguais s compo-
nentes principais correspondentes s variveis standardizadas.
Exemplo 1. Considere-se um vetor aleatrio X = [X1 X2 ]T com matriz de varincias-

covarincias tal que
4 1
=

1 1
12
2.2 Estimao em componentes principais
Os valores prprios de so 2 = 4.3028 e 1 = 0.6972, tendo como correspondentes

vetores prprios normados e1 = [0.9571 0.2898]T e e2 = [0.2898 0.9571]T . As
componentes principais correspondentes so ento dadas por
Y1 = 0.9571 X1 0.2898 X2
Y2 = 0.2898 X1 + 0.9571 X2
A matriz de correlaes correspondente a dada por

1 0.5
C=

0.5 1
Tem-se agora 1 = 1.5, 2 = 0.5, e1 = [0.7071 0.7071]T e e2 = [0.7071 0.7071]T .

Neste caso, as componentes principais so dadas por
Y1 = 0.7071 Z1 0.7071 Z2
X1 1

= 0.7071 0.7071 (X2 2 )
2
= 0.3536 (X1 1 ) 0.7071 (X2 2 )
Y2 = 0.7071 Z1 + 0.7071 Z2
= 0.3536 (X1 1 ) + 0.7071 (X2 2 ),
onde [1 2 ]T representa o vetor mdia de X.

Podemos ainda observar que, no primeiro caso, a percentagem da varincia total
explicada pela primeira componente principal aproximadamente 86% e, segundo
no caso, tal percentagem 75%.
2.2. Estimao em componentes principais

2.2.1. Componentes principais amostrais
Seja (X1 , X2 , . . . , Xn ) uma amostra aleatria de dimenso n do vetor aleatrio real

X = [X1 X2 . . . Xp ]T , onde Xj = [X1j X2j . . . Xpj ]T , j = 1, 2, . . . , n. O vetor mdia
amostral e a matriz de varincias-covarincias amostral so dados, respetivamente,
por
n n
1X 1 X
X= Xj e S = (Xj X)(Xj X)T .
n j=1 n 1 j=1
n
1X
Tem-se X = [X 1 X 2 . . . X p ]T e S = [Sik ]i,k=1,2,...,p , com X i = Xij e
n j=1
n
1 X
Sik = (Xij X i )(Xkj X k ), i, k = 1, 2, . . . , p.
n 1 j=1
13
A amostra standardizada correspondente dada por (Z1 , Z2 , . . . , Zn ), com

" #T
X1j X 1 X2j X 2 Xpj X p
Zj = ... p , j = 1, 2, . . . , n.
S11 S22 Spp
A matriz de varincias-covarincias amostral das variveis standardizadas a matriz

de correlaes amostral das variveis no standardizadas, que denotamos por R. De
n
1X Xij X i
facto, tem-se Z i = = 0, resultando que o elemento na posio (i, k)
n j=1 Sii
da matriz de varincias-covarincias amostral das variveis standardizadas dado
por
n n
1 X 1 X (Xij X i ) (Xkj X k ) Sik
Zij Zkj = = ,
n 1 j=1 n 1 j=1 Sii Skk Sii Skk
i, k = 1, 2, . . . , p, que corresponde ao elemento na posio (i, k) da matriz R. Se

n > p, as matrizes R e S so definidas positivas (teorema 3.14 de [6]). A restrio
n > p que passaremos a admitir, natural pois indica que a dimenso da amostra
deve ser superior dimenso do vetor aleatrio X.
Denotamos por l1 , l2 , . . . , lp os valores prprios de R, todos positivos. Estes va-
lores prprios so todos distintos com probabilidade 1 ([1], p. 280). Consideramos
l1 > l2 > . . . > lp . Sendo qi = [q1i q2i . . . qpi ]T um vetor prprio normado de R
associado a li , i = 1, 2, . . . , p, a matriz Q = [q1 q2 . . . qp ] ortogonal e tem-se
p
X
R = QLQT = li qi qTi ,
i=1
onde L = diag (l1 , l2 , . . . , lp ) a matriz diagonal cujos elementos diagonais so os

valores prprios de R. Na prtica, a unicidade do vetor prprio qi fica garantida
se, dos dois vetores prprios normados associados a li , for escolhido, por exemplo,
aquele cuja primeira componente no nula tiver sinal positivo.
A partir da matriz R obtm-se as componentes principais amostrais procedendo
como no captulo anterior. Desta forma, a j-sima componente principal amostral
dada por, Yj = qTj Z, j = 1, 2, . . . , p. Assim o vetor das componentes principais
amostrais dado por
Y = QT Z.
A varincia amostral de Yj igual a lj e a covarincia amostral entre Yj e Yk

igual a zero, k 6= j, j, k = 1, 2, . . . , p. Como os p elementos diagonais de R so
todos iguais a 1, a varincia amostral total das variveis standardizadas igual a p e
l1 + l2 + . . . + lp = p. Desta forma, a j-sima componente principal amostral explica
lj
uma proporo da varincia total amostral que dada por , j = 1, 2, . . . , p.
p
14
No que diz respeito ao coeficiente de correlao amostral entre Yj e Zk tem-se

p
rYj ,Zk = qkj lj , j, k = 1, 2, . . . , p.
As componentes principais amostrais podem tambm ser determinadas a partir

da matriz S, obtendo-se resultados anlogos a partir dos valores e vetores prprios
desta matriz.
Quanto ao coeficiente de correlao amostral entre Yj e Xk tem-se agora

p
qkj lj
rYj ,Xk = , j, k = 1, 2, . . . , p.
Skk
Daqui em diante, na maior parte dos casos, as notaes introduzidas neste ca-
ptulo sero usadas tanto para as estatsticas que representam como para as corres-
pondentes concretizaes.
2.2.2. Estimao de parmetros
O vetor aleatrio X e a matriz aleatria S, so estimadores de e , respetivamente.

Quanto aos valores prprios e vetores prprios de , eles podem ser estimados pelos
correspondentes valores prprios e vetores prprios de S.
Admitindo que X segue uma lei normal multivariada, Np (, ), obtm-se segui-

damente os estimadores de mxima verosimilhana dos parmetros acima mencio-
nados.
Consideremos ento um vetor aleatrio X com distribuio Np (, ) e seja

(X1 , . . . , Xn ) uma amostra aleatria de dimenso n de X. Os n vetores aleat-
rios X1 , . . . , Xn so ento independentes e seguem todos a lei normal multivariada
Np (, ). Nestas condies, e atendendo a que a matriz definida positiva,
(X1 , . . . , Xn ) tem funo densidade conjunta dada por
n
1 1

(xj )T 1 (xj )
Y
f (x1 , . . . , xn ) = p 1 exp
j=1 (2) 2 (det) 2
2

n
1 1 1X
= np n exp
(xj )T 1 (xj ) , (2.5)
(2) 2 (det) 2 2 j=1
para quaisquer x1 , . . . , xn Rp .
Comeamos por obter os estimadores de mxima verosimilhana de e .
Note-se que a expresso (2.5) define tambm a funo de verosimilhana asso-

ciada a cada realizao (x1 , . . . , xn ) da amostra aleatria de X, a qual pretendemos
np
maximizar em termos de e . No entanto, como o factor (2) 2 no afeta tal
problema de maximizao, os estimadores de mxima verosimilhana pretendidos
15
correspondero s solues
b e
b que maximizam a funo

n
n 1X
L(, ) = (det) 2 exp (xj )T 1 (xj ) . (2.6)
2 j=1
Vamos escrever de outra forma o argumento da exponencial em (2.6). De-

notando por tr o trao de uma matriz quadrada e atendendo a que o produto
(xj )T 1 (xj ) um escalar, tem-se

(xj )T 1 (xj ) = tr (xj )T 1 (xj )

= tr 1 (xj )(xj )T .
Ento
n n
(xj )T 1 (xj ) = tr 1 (xj )(xj )T
X X
j=1 j=1

n
1
X
T
= tr (xj )(xj ) . (2.7)
j=1
1 Pn
Subtraindo e adicionando x = n j=1 xj a cada termo (xj ) em (2.7), obtm-se
n
X
(xj x + x )(xj x + x )T =
j=1
n
X n
X
= (xj x)(xj x)T + (x xj )(x )T
j=1 j=1
Xn
= (xj x)(xj x)T + n(x )(x )T . (2.8)
j=1
Esta ltima igualdade obtida da anterior pelo facto de se ter

n
X n
X
(xj x)(x )T = (x )(xj x)T = 0.
j=1 j=1
Substituindo (2.8) em (2.7), tem-se

n
1
X
T
tr (xj )(xj ) =
j=1

n
= tr 1 (xj x)(xj x)T + n tr 1 (x )(x )T
X
j=1

n
= tr 1 (xj x)(xj x)T + n(x )T 1 (x ).
X
(2.9)
j=1
Consequentemente, tendo em conta (2.6), (2.7) e (2.9), podemos escrever a funo

L(, ) na forma

n
1 1
tr 1 (xj x)(xj x)T + n(x )T 1 (x )
X
n exp
(det) 2 2
j=1
(2.10)
16
O lema que se segue a base da demonstrao da proposio que estabelece

os estimadores de mxima verosimilhana de e . A sua demonstrao pode ser
encontrada em [3] (pgs. 146-147).
Lema 1. Dada uma matriz B, quadrada, de ordem p, simtrica e definida positiva

e um escalar b > 0, tem-se
1 1 1
b
etr( B)/2 (2b)bp ebp (2.11)
(det) (detB)b
para qualquer matriz , quadrada, de ordem p, e definida positiva, verificando-se a

1
igualdade apenas para = 2b B.
Proposio 3. Seja (X1 , ..., Xn ) uma amostra aleatria de dimenso n de um vetor

aleatrio com distribuio Np (, ). Ento
n n
1X b = 1
X
X= Xj e (Xj X)(Xj X)T
n j=1 n j=1
so os estimadores da mxima verosimilhana de e , respetivamente.
Demonstrao. Como j foi referido, pretendemos maximizar a funo L(, ) dada

por (2.10), para cada realizao (x1 , ..., xn ), arbitrariamente fixa.
Como definida positiva, o mesmo acontece com 1 pelo que
(x )T 1 (x ) 0, tendo-se a igualdade se e s se = x. Ento, relati-
vamente a , a funo L(, ) atinge o seu valor mximo em x.
Resta ento maximizar a funo

n
1 1 1 X
L(x, ) = n exp tr
(xj x)(xj x)T .
(det) 2 2 j=1
n
n X
Aplicando o lema anterior com b = e B = (xj x)(xj x)T , verifica-se
2 j=1
n
1X
que o mximo, relativamente a , ocorre em (xj x)(xj x)T . Obtm-
n j=1
n
1X
se assim, para e , os estimadores de mxima verosimilhana X = Xj e
n j=1
n
1X
b = (Xj X)(Xj X)T , respetivamente.

n j=1
Alm de e , pretende-se estimar i e ei , i = 1, 2, . . . , p. O prximo teorema

estabelece o resultado correspondente. Na sua demonstrao so usados os dois
lemas que se seguem. O primeiro estabelece a invarincia dos estimadores de mxima
verosimilhana quando so aplicadas funes bijetivas (cf. [1], pg. 48).
17
Lema 2. Se b1 , . . . , bm so estimadores de mxima verosimilhana dos parmetros

reais 1 , . . . , m de uma determinada distribuio de probabilidade e se 1 , . . . , m
so funes reais bijetivas, ento 1 (b1 , . . . , bm ), . . ., m (b1 , . . . , bm ) so estimadores
de mxima verosimilhana de 1 (1 , . . . , m ), . . ., m (1 , . . . , m ). Alm disso, se
os estimadores b1 , . . . , bm so nicos, o mesmo acontece com 1 (b1 , . . . , bm ), . . .,
m (b1 , . . . , bm ).
O segundo lema um resultado que envolve matrizes sem componentes aleatrias

(cf. [6], pg. 386).
Lema 3. Se U = diag(u1 , . . . , uk ), com u1 > . . . > uk > 0 e V = diag(v1 , . . . , vp )

com v1 > . . . > vp > 0, k p, ento para toda a matriz P de tipo p k tal que
P T P = I, tem-se
k
X
tr(U P T V P ) ui vi .
i=1
A igualdade verifica-se apenas quando P assume a forma

1 0

..
.
P = (2.12)

0 1

0
Teorema 2. Suponhamos que a matriz tem valores prprios 1 > . . . > r com
multiplicidades m1 , . . . , mr , respetivamente, r p. Particionem-se as matrizes e
Q na forma
= [1 | 2 | . . . | r ] e Q = [Q1 | Q2 | . . . | Qr ],
onde i e Qi so matrizes p mi . Um estimador de mxima verosimilhana de i
1 n1 X
bi = lj , i = 1, 2, . . . , r,
mi n jD
i
onde D1 = {1, . . . , m1 } e Di = {m1 + . . . + mi1 + 1, . . . , m1 + . . . + mi }, i =

2, . . . , r. Alm disso, um estimador de mxima verosimilhana de i dado por
b i = Qi Pii , onde Pii uma matriz ortogonal qualquer de ordem mi tal que o pri-
b i no-negativo, i = 1, 2, . . . , r.
meiro elemento em cada coluna de
Demonstrao. Na demonstrao vamos considerar o caso em que apenas um valor

prprio tem multiplicidade diferente de 1, sendo semelhante a prova do caso mais
geral. Suponhamos ento que os valores prprios de so 1 > . . . > k > k+1 =
18
. . . = p . Por simplificao de notao consideram-se os (p k) menores valores

prprios iguais a .
J vimos, em (2.10), que a funo de verosimilhana L(, ) associada a cada
realizao (x1 , . . . , xn ) da amostra aleatria X, pode ser escrita na forma

n
1 1
tr 1 (xj x)(xj x)T + n(x )T 1 (x ) .
X
n exp
(det) 2 2
j=1
Alm disso, vimos que L(, ) maximizada relativamente a para = x. Nesse

caso, resta maximizar, relativamente a 1 , . . . , k , , a funo

n
n 1 1 X
g() = ln L(x, ) = ln det tr (xj x)(xj x)T .
2 2 j=1
Podemos escrever = Y T , onde Y = diag (1 , . . . , k , , . . . , ) e uma ma-

triz cujas colunas so os vetores prprios associados aos valores prprios que consti-
tuem a diagonal de Y . Analogamente, tem-se S = QLQT , com L = diag (l1 , . . . , lp )
e Q a matriz dos correspondentes vetores prprios. Tendo ainda em conta que
n
X
(xj x)(xj x)T = (n 1)S, obtm-se
j=1
n 1
g() = log det(Y T ) tr (Y T )1 (n 1)QLQT
2 2
p !
n Y n 1 1 T
= log i tr Y QLQT
2 i=1
2

k
! p
n Y n Y n 1 1 T
= log i log j tr Y P LP
2 i=1
2 j=k+1
2
k
nX n(p k) n 1 1 T
= log i log tr Y P LP ,
2 i=1 2 2
onde P = QT uma matriz ortogonal de ordem p. Particionando P na forma

P = [P1 |P2 ], com P1 Rpk e P2 Rp(pk) e escrevendo Y na forma

Y1 0
Y =

0 Ipk
onde Y1 = diag(1 , . . . , k ), tem-se

1 0 P1T

Y1
tr 1 T
Y P LP = tr L P1T P2T

0 1 Ipk P2T

= tr 1 T 1 T
Y1 P1 LP1 + tr LP2 P2
p
1X
= li tr 1 Ik 1
Y1 P T
1 LP1
i=1
19
No ltimo passo usmos os facto de P2 P2T = I P1 P1T . Desta forma,
k p
nX n(p k) n1X
g() = ln i ln li
2 i=1 2 2 i=1
n 1 1
+ tr Ik 1
Y1 P T
1 LP1 (2.13)
2
Aplicando o lema anterior, com U = 1 Ik 1

Y1 e V = L, o termo em (2.13) onde
surge o trao maximizado relativamente a P1 quando esta matriz tem a forma

(2.12). Tal mximo dado por
k k
n1X n1X li
li . (2.14)
2 i=1 2 i=1 i
Atendendo a que P ortogonal e P1 tem a forma indicada, a funo g() maxi-

mizada relativamente a P para

1 0
..
0

.
Pb =

0
1

0 P22
A matriz P22 quadrada de ordem p k. Desta forma, pelo lema 2,

b = QPb
um estimador de mxima verosimilhana de . Para concluir a demonstrao,

resta encontrar os estimadores de mxima verosimilhana de i e . Para tal, por
substituio de (2.14) em (2.13), maximiza-se relativamente a esses parmetros a
funo
k p k
nX n(p k) n1 X n1X li
g() = ln i ln li ,
2 i=1 2 2 i=k+1 2 i=1 i
obtendo-se para i e , respetivamente, os estimadores de mxima verosimilhana
n1

bi = li , i = 1, . . . , k
n
e
p
n1 X

b= lj .
(p k)n j=k+1
Exemplo 2. No teorema anterior, suponhamos que p = 8, r = 4, m1 = 1, m2 = 2,

m3 = 3 e m4 = 2. Ento D1 = {1} , D2 = {2, 3} , D3 = {4, 5, 6} e D4 = {7, 8}. De
20
acordo com o teorema, os estimadores de mxima verosimilhana so

n1
b1 = l1
n
n1
b2 = (l2 + l3 )
2n
n1
b3 = (l4 + l5 + l6 )
3n
n1
b4 = (l7 + l8 )
2n
No que diz respeito centricidade dos estimadores dos valores prprios de ,
os resultados de Lawley ([4]), obtidos para o caso em que o vetor aleatrio X tem
distribuio normal multivariada, permitem concluir que se i um valor prprio de
de multiplicidade 1, ento o seu estimador li e, consequentemente, o seu estimador
de mxima verosimilhana, so assintoticamente cntricos.
Por outro lado, como se prova a seguir, os estimadores X e S so cntricos de
e , respetivamente. Consequentemente, o estimador de mxima verosimilhana de
apenas assintoticamente cntrico.
n b
Proposio 4. Os estimadores X e S = so cntricos de e , respetiva-
n1
mente.
Demonstrao. Tendo em conta a definio de esperana matemtica de uma ma-

triz aleatria real (matriz das esperanas matemticas das variveis aleatrias que
formam a matriz aleatria, desde que existam), a linearidade da esperana matem-
tica de variveis aleatrias reais e ainda propriedades das operaes com matrizes,
tem-se
n
1X
E(X) = E(Xj ) =
n j=1
Para verificar a centricidade do estimador S de , provemos primeiro que a matriz
de varincias-covarincias de X dada por
1
Cov(X) = .
n
h i
Tem-se Cov(X) = E (X )(X )T e, como a matriz (X )(X )T tem
elemento genrico (Xi i )(Xj j ), i, j = 1, . . . , p, podemos escrever
!T
n n
1X 1X
Cov(X) = E (Xj ) (Xk )
n j=1 n k=1

n X n
1 X
= E (Xj )(Xk )T
n2 j=1 k=1
n X n
1 X h
T
i
= E (Xj )(Xk ) .
n2 j=1 k=1
21
Tendo em conta a independncia dos vetores aleatrios Xj e Xk , j 6= k, verifica-se

h i
E (Xj )(Xk )T = 0, j 6= k. Tem-se ento
n
1 X h
T
i 1
Cov(X) = 2
E (Xj )(Xj ) = ,
n j=1 n
h i
uma vez que E Xj )(Xj )T corresponde matriz de varincias-covarincias
do vetor aleatrio Xj e este tem a mesma distribuio de X, j = 1, . . . , n.
Vamos ento verificar que E(S) = .
Tem-se

n
X n
X n
X
(Xj X)(Xj X)T = (Xj X)XTj + (Xj X) (X)T
j=1 j=1 j=1
n
X T
= Xj XTj nX X ,
j=1
n n
X T X
tendo em conta que XTj = nX e (Xj X) = 0.
j=1 j=1
Ento
n
1 X n T

E(S) = E Xj XTj E XX
n 1 j=1 n1
n h T
i
= E XXT E X X , (2.15)
n1
uma vez que os vetores aleatrios X e Xj seguem a mesma lei, j = 1, ..., n.

Por outro lado, verifica-se facilmente que
h i
= E (X )(X )T E(XXT ) = + T . (2.16)
1
Analogamente, como E(X) = e Cov(X) = n , tem-se
T
1
E XX = + T . (2.17)
n
O resultado E(S) = obtm-se conjugando (2.15), (2.16) e (2.17).
22
Captulo 3
Anlise fatorial
Em problemas que envolvam um grande nmero de variveis observveis so neces-

srios muitos parmetros para descrever toda a informao. Sempre que existam
variveis fortemente correlacionadas concebvel agrup-las num grupo de modo
que variveis que estejam em grupos distintos apresentem fraca correlao. Esta
a base da anlise fatorial, isto , descrever a estrutura de covarincias entre as
variveis iniciais atravs de um menor nmero de variveis, os fatores ou variveis
latentes.
Este captulo dedicado ao modelo ortogonal de anlise fatorial. Na seco

3.1, depois da definio do modelo, deduzem-se algumas propriedades decorrentes
dos pressupostos envolvidos. Em particular, conclui-se que os pesos fatoriais com
elevado valor absoluto identificam o fator a que cada varivel se associa. Outra
propriedade importante prende-se com o facto da matriz dos pesos fatoriais no ser
nica, podendo ser rotacionada de modo a produzir novos pesos fatoriais que faci-
litam a interpretao dos fatores. Na seco 3.2 apresentam-se dois procedimentos
para, na prtica, verificar a adequao dos dados aplicao da anlise fatorial,
a qual s faz sentido se as variveis iniciais forem correlacionadas. A seco 3.3
dedicada estimao dos pesos fatoriais, destacando-se o mtodo das componentes
principais. A reduo da complexidade de um problema com muitas variveis, passa
pela escolha do nmero de fatores que podem substituir as variveis originais sem
perda significativa de informao. A escolha do nmero de fatores a considerar na
anlise fatorial analisada na seco 3.4. Os fatores determinados podem ser vistos
como um sistema de eixos no qual se representam os pontos cujas coordenadas so
os pesos fatoriais correspondentes a cada uma das variveis X1 , . . . , Xp . Tendo em
conta o que foi referido sobre a rotao da matriz dos pesos fatoriais, tais eixos
podem ser rotacionados com o objetivo de conseguir que os pesos fatoriais elevados
(resp., baixos) fiquem ainda mais elevados (resp., baixos) de modo a facilitar a in-
terpretao dos fatores. A rotao de fatores estudada na seco 3.5. Apesar dos
23
Captulo 3 Anlise fatorial
fatores comuns serem variveis no observveis, possvel estimar o valor de cada

fator (score) para cada indivduo da amostra. Na seco 3.6 referem-se dois mtodos
para atingir esse objetivo: o mtodo dos mnimos quadrados ponderados e o mtodo
da regresso.
3.1. Modelo ortogonal
Seja X = [X1 X2 . . . Xp ]T um vetor aleatrio real de dimenso p, com vetor mdia

= [1 2 . . . p ]T e matriz de varincias-covarincias , definida positiva. O mo-
delo da anlise fatorial expressa cada varivel observvel Xi como funo linear de m
variveis aleatrias F1 , F2 , . . . , Fm (m < p), chamadas fatores comuns, e de um fator
nico ou erro, i , i = 1, 2, . . . , p. Este fator nico tambm uma varivel aleatria
cujo objetivo explicar a parte da varincia da respetiva varivel no explicada pe-
los fatores comuns. Os m fatores comuns e os p fatores nicos no so observveis.
Mais precisamente, as variveis observveis so escritas na forma que representam a
importncia do j-simo factor comum na i-sima varivel observvel, i = 1, 2, . . . , p,
j = 1, 2, . . . , m. O modelo pode escrever-se na forma matricial
X = F + (3.1)
onde

11 12 . . . 1m

21 22 . . . 2m
T T
F = [F1 F2 . . . Fm ] , = [1 2 . . . p ] e = .

. .. ..
. . .

p1 p2 . . . pm
Assume-se que:
E(F) = 0;
E() = 0;
Cov(F) = I;

1 0 ... 0

0 2 . . . 0
Cov() = = ;

.. .. ..
. . .

0 0 . . . p
Os vetores F e so independentes.
24
3.1 Modelo ortogonal
Este conjunto de condies e a relao (3.1) constituem o chamado modelo ortogonal

de anlise fatorial. Se os fatores comuns forem considerados correlacionados, ento
estamos perante o modelo oblquo, o qual no ser tratado neste trabalho.
Nas condies do modelo ortogonal, verifica-se que
= T + . (3.2)
De facto,
= E[(F + )(F + )T ]
= E[F(F)T + FT + (F)T + T ]
= E(FFT )T + E(FT ) + E(FT )T + E(T )
= T + ,
uma vez que E(FT ) = Cov(F, ) = 0.

Tem-se tambm
Cov(X, F) = E((F + )FT ) = E(FFT ) + E(FT ) = .
Note-se que a igualdade Cov(X, F) = equivalente a
Cov(Xi , Fj ) = ij , i = 1, 2, . . . , p, j = 1, 2, . . . , m.
Assim, ij uma medida da influncia da varivel Xi no fator Fj , pelo que, quando os

pesos fatoriais so elevados em valor absoluto, identificam o fator a que cada varivel
se associa. Mais precisamente, as variveis que contribuem para a determinao de
um fator so aquelas cujos pesos fatoriais so mais elevados nesse fator.
De (3.2), resulta
2 2 2
V (Xi ) = i1 + i2 + + im + i , i = 1, 2, . . . , p.
O valor
h2i = i1
2 2
+ i2 2
+ + im
designa-se por comunalidade da varivel Xi e corresponde poro da varincia de

Xi que explicada pelos fatores comuns. O valor i corresponde poro desta
varincia que explicada pelo fator especfico e chama-se varincia especfica.
Em geral, a matriz em (3.1) no nica. Efetivamente, se T for uma matriz
ortogonal de ordem m, tem-se
X = F + = T T T F + = F + ,
25
com = T e F = T T F. Note-se que
E(F ) = T T E(F) = 0 e Cov(F ) = T T Cov(F)T = I.
Assim, tanto F como F satisfazem as condies do modelo ortogonal. Alm disso,

ambas as matrizes e do origem matriz . De facto,
= T + = T T T T + = ( )T + .
Observando ainda que as comunalidades, h2i , i = 1, 2, . . . , p, correspondem aos ele-

mentos diagonais de T e que T = ( )T , conclui-se que os valores de h2i e,
consequentemente os valores de V (Xi ), no so afetados pela escolha de T .
3.2. Adequao da aplicao do modelo fatorial
A aplicao da anlise fatorial requer que as variveis X1 , . . . , Xp sejam correlacio-

nadas, pois caso contrrio, tal aplicao no faz sentido. Se as variveis no forem
correlacionadas duas a duas, ento a matriz de correlaes a matriz identidade.
Faz ento sentido testar a hiptese H0 : C = I contra a alternativa H1 : C 6= I. Para
testar estas hipteses, temos o teste de esfericidade de Bartlett. Sob a hiptese H0 ,
a distribuio da estatstica deste teste converge em lei para uma varivel aleatria
p(p 1)
com distribuio do quiquadrado com graus de liberdade, sob a hiptese
2
da normalidade do vetor aleatrio X = [X1 . . . Xp ]T . Tal estatstica dada por
2p + 5
2 = n 2 ln |R|.
6
Ao nvel de significncia , ]0, 1[, rejeita-se H0 se o valor observado da estatstica

de teste for superior ao quantil de ordem 1 daquela distribuio do quiquadrado.
Este teste muito sensvel violao da hiptese da normalidade de X (cf. [5]).
O procedimento mais utilizado para avaliar o grau de adequao dos dados
aplicao da anlise fatorial a estatstica de Kaiser-Meyer-Olkin, que dada por
X
2
rij
i6=j
KMO = X 2
X
2
,
rij + vij
i6=j i6=j
onde rij e vij so, respetivamente, os elementos na posio (i, j) da matriz de corre-
h 1
i1
laes amostral, R, e da matriz V = U R1 U , na qual U = (diag R1 ) 2 . Note-se
que diag R1 a matriz cuja diagonal coincide com a diagonal de R1 mas com os
1
restantes elementos nulos e (diag R1 ) 2 a matriz diagonal cujo i-simo elemento
26
3.3 Extrao dos fatores
diagonal a raiz quadrada do i-simo elemento diagonal de diag R1 . A matriz V

usualmente designada por matriz de correlao anti-imagem.
Kaiser props a seguinte relao entre o valor do KMO e o uso da anlise fatorial
Valor do KMO Recomendao AF

]0.9, 1] Excelente
]0.8, 0.9] Boa
]0.7, 0.8] Mdia
]0.6, 0.7] Aceitvel
]0.5, 0.6] Fraca
0.5 Inaceitvel
3.3. Extrao dos fatores
A expresso "extrao dos fatores" usada habitualmente na literatura para designar

a metodologia de estimao da matriz de pesos fatoriais, , e da matriz das varincias
especficas, .
Nesta seco apresentam-se dois dos mtodos mais usados na extrao dos fa-
tores, nomeadamente o mtodo das componentes principais e o mtodo da mxima
verosimilhana. No primeiro caso no so exigidas condies que envolvam distri-
buies de probabilidade, o que j no acontece no segundo caso, no qual se exige
a normalidade do vetor aleatrio X. Neste trabalho, o mtodo das componentes
principais estudado com mais detalhe.
3.3.1. Mtodo das componentes principais
A soluo para o modelo fatorial apresentada pelo mtodo das componentes princi-
pais, escolhe para os m fatores as primeiras m componentes principais, Y1 , . . . , Ym
(obtidas da matriz de varincias-covarincias, , de X ou da correspondente ma-
triz de correlaes, C), divididas pelo respetivo desvio-padro. Mais precisamente,
Yj
Fj = p , j = 1, 2, . . . , m, uma vez que, recorde-se, V (Yj ) = j , sendo j o
j
j-simo maior valor prprio de (ou de C). Desta forma, tem-se V (Fj ) = 1. Re-
cordemos ainda que, associado ao valor prprio j , temos o vetor prprio normado
ej = [e1j e2j ... epj ]T e que Cov(Xi , Yj ) = j eij . Alm disso, como foi verificado na
27
seco 3.1, tem-se Cov(Xi , Fj ) = ij . Ento

!
Yj 1
ij = Cov(Xi , Fj ) = Cov Xi , p = p Cov(Xi , Yj )
j j
1 q
= p j eij = j eij , i = 1, 2, . . . , p, j = 1, 2, . . . , m.
j
Sabemos tambm que = Y T onde Y uma matriz diagonal na qual

constam os valores prrios de por ordem decrescente. Nas colunas da matriz
esto os vetores prprios associados queles valores prprios. Assim, designando
1 p
Y2 = diag( 1 , . . . , p ), tem-se
1 1
= Y T = Y2 Y2 T = M M T ,
1 p
com M = Y2 = 1 e1 . . . p ep .
A matriz ento estimada a partir das primeiras m colunas da matriz M , ou
seja, estimada por
hp p i

e = l1 q1 . . . lm qm , m < p, (3.3)
onde lj representa o j-simo valor prprio da matriz de varincias-covarincias amos-

tral S (ou da matriz de correlaes amostral, R) e qj representa o j-simo vetor
prprio normado associado a lj , j = 1, 2, . . . , m. Assim, os coeficientes ij so
estimados por
q

e ij = lj qij , i = 1, 2, . . . , p, j = 1, 2, . . . , m.
As comunalidades e as varincias especficas so ento estimadas, respetivamente,

e2 =
por h 2 + 2 +...+ 2 e e 2 , onde sii representa o i-simo elemento
ei = sii h
i e i1 e i2 e im i
diagonal da matriz S, i = 1, 2, . . . , p. Note-se que, se for usada a matriz R, tem-se

e 2.
ei = 1 h i
Como j foi referido, as variveis cujos pesos fatoriais so mais elevados num
determinado fator so as que contribuem para a determinao desse fator. Se for
usada a matriz R para a estimao dos pesos fatoriais, muitas vezes consideram-se
significativos os pesos fatoriais superiores ou iguais a 0.5, por serem responsveis por
pelo menos 25% da varincia total ([7], pg. 490).
3.3.2. Mtodo da mxima verosimilhana
A aplicao deste mtodo exige que a distribuio do vetor aleatrio X seja normal
multivariada, Np (, ). A funo de verosimilhana ento definida pela expresso
28
3.4 Escolha do nmero de fatores
(2.10) considerada agora como funo de , e , tendo em conta que = T +.

J vimos que tal funo maximizada relativamente a em x.
Pretende-se ento maximizar

n
1 1 T 1
X
n exp tr ( + ) (xj x)(xj x)T
(det(T + )) 2 2 j=1
relativamente a e a . Devido multiplicidade de escolhas para , imposta

a condio 1 1 = D, sendo D uma matriz diagonal. No entanto, esta maxi-
mizao s possvel usando mtodos numricos. Existem programas eficientes j
implementados que, para cada amostra concreta de X, permitem obter as estimati-
vas de mxima verosimilhana para e , como o caso do SPSS.
Uma informao mais completa sobre a estimao de e atravs o mtodo da
mxima verosimilhana pode ser encontrada em [2] (pgs. 80-85).
3.4. Escolha do nmero de fatores
A escolha do nmero de fatores um passo fundamental na anlise fatorial.

desejvel ter m < p fatores pois, caso contrrio, embora se encontrem p variveis
no correlacionadas no se diminui o nmero de variveis iniciais que um dos
objetivos da anlise fatorial. De seguida apresentam-se vrios critrios para efetuar
tal escolha, todos eles baseados nos valores prprios j , j = 1, 2, . . . , p, da matriz de
varincias-covarincias (ou da matriz de correlaes, C).
1. Critrio da percentagem de varincia total explicada. Como a va-

rincia da j-sima componente principal igual ao j-simo valor prprio de
, a percentagem de varincia total explicada pelas m primeiras componentes
principais, m p,
1 + 2 + . . . + m
100%.
1 + 2 + . . . + p
O nmero de fatores que se consideram igual ao nmero de valores prprios
que necessrio considerar para perfazer uma determinada percentagem de
varincia total explicada, usualmente 85%. Note-se que, se for usada a matriz
1 + 2 + . . . + m
C, aquela percentagem dada por 100%.
p
2. Critrio de Kaiser. Este critrio, desenvolvido por Kaiser (1958), considera
que o nmero de fatores deve ser igual ao nmero de valores prprios maiores
ou iguais que a mdia artmtica dos p valores prprios. Observe-se que esta
mdia igual a 1 quando usada a matriz de correlaes.
29
3. Scree plot. Tem por base a interpretao de um grfico no qual se represen-

tam os pontos (j, lj ), j = 1, 2, . . . , p. Na figura 3.1 apresenta-se um exemplo
de um scree plot.
Figura 3.1: Exemplo de um scree plot.
Nestes grficos temos uma linha poligonal que decresce rapidamente nos pri-
meiros fatores. Estes assumem um papel de maior importncia na anlise
fatorial no sentido em que explicam a maior parte da varincia total. Por
este critrio, o nmero timo de fatores obtido quando a variao da expli-
cao entre fatores consecutivos passa a ser pequena. Por exemplo, no caso
correspondente figura 3.1 devem ser considerados 4 fatores.
No exemplo que se segue utilizamos o mtodo das componentes principais para

estimar os pesos fatoriais, usando o primeiro critrio enunciado para escolher o
nmero de fatores.
Exemplo 3. Determinado curso tem trs diciplinas obrigatrias, matemtica (D1 ),

ingls (D2 ) e portugus (D3 ). Seja Xi a classificao obtida por um aluno na dis-
ciplina Di , i = 1, 2, 3. Registaram-se os resultados obtidos por 5 alunos a essas 3
disciplinas (escala 0 20) no seguinte quadro:
Nmero Estudante 1 2 3 4 5
X1 6 14 19 7 18
X2 12 8 17 16 13
X3 10 8 18 15 11
Verifica-se facilmente que a matriz de correlao dada por
30
3.4 Escolha do nmero de fatores

1 0.095 0.239

R=
0.095 1 0.949

0.239 0.949 1
Para estimar a matriz de pesos fatoriais, , vamos utilizar o mtodo das componen-
tes principais. Os valores prprios da matriz R so l1 = 2.0032, l2 = 0.9576 e l3 =
0.0391. Os correspondentes vetores prprios normados so q1 = [0.2238 0.6809 0.6974]T ,
q2 = [0.9570 0.2397 0.0861]T e q3 = [0.1160 0.6921 0.7124]T .
Sendo Z = [Z1 Z2 . . . Z3 ]T o vetor das variveis standardizadas, as componentes
principais so dadas por
Y1 = qT1 Z = 0.2238Z1 + 0.6809Z2 + 0.6974Z3
Y2 = qT2 Z = 0.9570Z1 0.2397Z2 0.0861Z3
Y3 = qT3 Z = 0.1160Z1 + 0.6921Z2 0.7124Z3 .
As percentagens de varincia total explicadas pela primeira, segunda e terceira com-

ponentes principais so respectivamente
l1
100% = 66.77%
l1 + l2 + l3
l2
100% = 31.92%
l1 + l2 + l3
l3
100% = 1.3%.
l1 + l2 + l3
Como a percentagem de varincia total explicada pelas duas primeiras componentes
principais 98.69%, as variveis originais podem ser substitudas por Y1 e Y2 sem
perda segnificativa de informao.
De acordo com o critrio da percentagem de varincia total explicada, vamos ter
dois fatores. O modelo de anlise fatorial neste exemplo dado por
Z1 = 11 F1 + 12 F2 + 1
Z2 = 21 F1 + 22 F2 + 2
Z3 = 31 F1 + 32 F2 + 3 .
Atendendo a (3.3), a matriz

0.2238 0.9570 0.3168 0.9463

2.0032 0.6809
= 0.2397 = 0.9637 0.2346 .
0.9576

0.6974 0.0861 0.9871 0.0843
31
Portanto, utilizando os pesos fatoriais estimados da forma apresentada, o modelo

estimado por
Z1 = 0.3168F1 + 0.9463F2 + 1
Z2 = 0.9637F1 0.2346F2 + 2
Z3 = 0.9871F1 0.0843F2 + 3 .
Analisando a matriz verifica-se que os pesos fatoriais de F1 em Z2 e Z3 (prxi-

mos de 1) se destacam do peso fatorial de F1 em Z1 , mais prximo de zero. Os pesos
fatoriais de F2 em Z2 e Z3 so prximo de zero ao passo que o de Z1 mais prximo
de 1. Assim, como seria de esperar, as disciplinas de portugus e ingls formam um
fator (disciplinas da rea de letras) e a disciplina de matemtica constitui um fator
distinto.
Aps empregar um dos critrios descritos anteriormente para obter um possvel

nmero m de fatores, possvel testar a adequao do modelo de anlise fatorial se o
vetor aleatrio X puder ser considerado normalmente distribudo. Testa-se ento a
hiptese H0 : = T + contra a alternativa H1 : uma outra matriz definida
positiva. A correspondente estatstica de teste dada por
!

2p + 4m + 11

|
bbT +
b |
n ln ,
6 |
b |
onde
b eb representam os estimadores de mxima verosimilhana de e , respe-
b = n 1 S (estimador de mxima verosimilhana de apresentado

tivamente, e
n
no captulo anterior). Esta estatstica converge em lei para uma varivel aleatria
com distribuio do quiquadrado com 21 [(pm)2 pm] graus de liberdade. Assim,
a aplicao prtica do teste pode ser feita desde que a dimenso da amostra, n, e a
diferena n p sejam suficientemente grandes. Este teste aceita a hiptese nula a
um nvel de significncia , ]0, 1[, se o valor observado da estatstica de teste for
inferior ou igual ao quantil de ordem 1 da referida distribuio do quiquadrado.
Finalmente, note-se que, como o parmetro da lei do quiquadrado tem que ser po-
sitivo, o teste s poder ser aplicado se m e p verificarem 12 [(p m)2 p m] > 0,

o que equivalente a m < 21 (2p + 1 8p + 1 ) (cf. [3], pgs. 416-419).
3.5. Rotao dos fatores
A soluo encontrada para o modelo de anlise fatorial nem sempre facilmente

interpretvel, ou seja, os pesos fatoriais das variveis nos fatores comuns podem ter
32
3.5 Rotao dos fatores
valores que no permitem a determinao dos fatores.
J foi referido que qualquer rotao ortogonal da matriz dos pesos fatoriais, ,
gera a matriz de varincias-covarincias (ou a matriz de correlaes, se for esta
a matriz usada na sua determinao). Por outro lado, os m fatores podem ser
interpretados como um sistema de eixos ortogonais dois a dois. Neste sistema de
eixos, representemos cada um dos p pontos (1i , i2 , . . . , im ), i = 1, . . . , p. Com o
objetivo de tornar os pesos fatoriais elevados ainda mais elevados e os pesos fatoriais
baixos ainda mais baixos, facilitando a interpretao, podem ser efetuadas rotaes
dos fatores. Relativamente aos novos eixos fatoriais os p pontos acima referidos tm
outras coordenadas, que correspondem aos pesos fatoriais depois da rotao.
Existem dois tipos de rotaes, a ortogonal e a oblqua. A rotao ortogonal

a opo mais utilizada, sendo assim designada por manter a ortogonalidade dos
fatores. A rotao oblqua no mantm a ortogonalidade dos fatores. A figura 3.2
ilustra o efeito da rotao dos fatores no caso m = 2 e p = 10.
Figura 3.2: Exemplo do efeito da rotao (ortogonal e oblqua) de dois fatores
Dentro das rotaes ortogonais existem trs mtodos, nomeadamente Quartimax,

Varimax e Equimax. Destes, o mtodo Varimax o mais utilizado e, por conseguinte,
ser abordado de seguida de forma mais aprofundada.
O mtodo Varimax foi proposto por Kaiser em 1968. Sendo T uma matriz
ortogonal, L = T uma matriz que representa a matriz dos pesos fatoriais rota-
cionada. Seja o ngulo de rotao correspondente e lij = lij (), i = 1, 2, . . . , p e
j = 1, 2, . . . , m, o elemento genrico da matriz L. No mtodo Varimax pretende-se
encontrar o ngulo que maximiza a funo () dada por
p
m X 2 p
m X m
d2ij dj d2j ,
X X X
() = = d4ij p (3.4)
j=1 i=1 j=1 i=1 j=1
33
onde
p
lij 1X 2
dij = e dj = d .
hi p i=1 ij
Deste modo, d2ij representa o quadrado do peso fatorial lij normalizado pela comu-
nalidade da varivel Xi , h2i , e, para cada j = 1, . . . , m, dj representa a mdia dos
valores d2ij , i = 1, . . . , p. Quando se toma o mximo de , impe-se que a diferena
d2ij dj , i = 1, 2, . . . , p e j = 1, 2, . . . , m, seja o maior possvel, ou seja, conseguem-se
pesos fatoriais extremos, obtendo-se assim varincia mxima.
Vamos analisar com mais pormenor o caso m = 2. Para este caso, sabe-se que a
matriz
cos sin
T =
sin cos
ortogonal e faz a rotao dos eixos no sentido horrio de um ngulo . Tem-se

ento li1 = i1 cos i2 sin e li2 = i1 sin + i2 cos , i = 1, 2, . . . , p. Assim,
i1 cos i2 sin i1 sin + i2 cos

di1 = e di2 = , i = 1, 2, . . . , p.
hi hi
De (3.4), para m = 2 tem-se

p
2 X 2
d2j
X X
() = d4ij p
j=1 i=1 j=1
p " 4 4 #
i1 cos i2 sin i1 sin + i2 cos
X
= +
i=1
hi hi

p " #2 " #2
X 1 i1 cos i2 sin 2 1 i1 sin + i2 cos 2
p +
p hi p hi
i=1
1
= [cos(4)A + sin(4)B + C] (3.5)
4
p a b
X i1 i2
onde, considerando Ga,b = a+b
,
i=1 hi

A = G0,4 + G4,0 6G2,2 G20,2 G22,0 + 2G0,2 G2,0 + 4G21,1
B = 4 (G1,3 G3,1 G1,1 G0,2 + G1,1 G2,0 )

h i
C = p 3 (G2,0 + G0,2 )2 3G20,2 + 3G22,0 + 2G0,2 G2,0 + 4G21,1
1
Uma vez que (A2 + B 2 ) 2 > 0, podemos multiplicar e dividir o segundo membro de
(3.5) por esta constante, obtendo-se
" #
1 1 A B 1
() = (A2 + B 2 ) 2 cos(4) 1 + sin(4) 1 + C. (3.6)
4 2 2
(A + B ) 2 (A + B 2 ) 2
2 4
34
3.6 Scores fatoriais
A B
Como 1 1 1 e 1 1 1, existe um tal que
(A2 + B 2 ) 2 (A2 + B 2 ) 2
A B
cos = 1 e sin = 1 . Substituindo em (3.6) obtm-se
(A2 + B 2 ) 2 (A2 + B 2 ) 2
1 1 1
() = (A2 + B 2 ) 2 [cos(4) cos + sin(4) sin ] + C
4 4
1 2 1 1
= (A + B 2 ) 2 cos(4 ) + C
4 4
O mximo da funo () atingido em = /4, sendo o valor de obtido de
sin B
tan = = .
cos A
Para encontrar o quadrante de uma possvel rotao basta analisar os sinais do seno
e coseno na equao anterior.
3.6. Scores fatoriais
Apesar de um fator ser uma varivel no observvel obtida a partir de um conjunto

de variveis observveis, um indivduo da amostra pode possuir um score em cada
um dos m fatores obtidos. Um score, fij , pode ento ser interpretado como uma
estimativa do valor do fator Fi para o j-simo indivduo da amostra, i = 1, 2, . . . , m,
j = 1, 2, . . . , n. No entanto, de salientar que os scores no so estimativas de par-
metros no sentido usual, mas sim estimativas do valor no observado de cada um dos
fatores (que so variveis aleatrias), para cada indivduo da amostra. Alm disso,
o problema de estimao complica-se pelo facto de, relativamente a cada indivduo
j, as quantidades no observadas, m valores fij e p valores dos correspondentes fa-
tores especficos, superarem os p valores observados. Por este motivo, na obteno
dos scores h a necessidade de considerar estimativas de e como os verdadeiros
valores destas matrizes.
Os scores fatoriais so frequentemente usados para propsitos de diagnsticos e
tambm para efetuar uma anlise posterior.
Neste texto sero abordados dois mtodos para determinar os scores fatoriais: o
mtodo dos mnimos quadrados ponderados e o mtodo de regresso.
3.6.1. Mtodo dos mnimos quadrados ponderados
Como vimos em (3.1), o modelo fatorial pode ser escrito na forma matricial
X = F + .
35
Considerem-se os fatores especficos T = [1 2 . . . p ] como erros. Como as varin-

cias especficas V (i ) = i , i = 1, 2, . . . , p, no so necessariamente iguais, tomam-se
i
os erros normalizados, , i = 1, . . . , p, e minimiza-se a soma dos quadrados dos
i
erros
p
2i
= T 1 = (x f)T 1 (x f),
X
(3.7)
i=1 i

relativamente ao vetor f, de dimenso m. Admitindo que , e so conhecidos,

a soluo deste problema de minimizao o vetor f que verifica
1
f = T 1 T 1 (x ).
(cf. [3], pg. 430). Consideram-se agora como verdadeiros valores para e as
estimativas obtidas para estas matrizes por um dos mtodos referidos, as quais re-
presentamos por e , respetivamente. Alm disso considera-se como verdadeiro
valor de o vetor mdia da amostra, x. Desta forma os scores fatoriais para o j-
simo indivduo da amostra so as m componentes do vetor
1
fj = T ( )1 T ( )1 (xj x), (3.8)
onde xj representa o vetor das p observaes correspondentes ao j-simo indivduo,

j = 1, 2, . . . , n.
3.6.2. Mtodo da regresso
Este mtodo requer a normalidade conjunta de F e de . Tendo em conta as hipteses

consideradas para modelo ortogonal, X = F + , apresentado na seco 3.1,
tem-se X Np (0, T + ).
Prova-se tambm que a distribuio conjunta de X e F Nm+p (0, 0 ) onde

T +
0 =

T I
Alm disso, verifica-se que a distribuio condicional de F dado X = x, F|x,

normal multivariada com vetor mdia e matriz de varincias-covarincias dados,
respetivamente, por
mF|x = T (T + )1 (x ) e CovF|x = I T (T + )1 .
De acordo com este mtodo os scores fatoriais so obtidos encontrando estima-

tivas dos coeficientes na regresso multivariada dos fatores nas variveis, ou seja,
36
3.6 Scores fatoriais
estimativas de T (T + )1 . Desta forma, tomando como verdadeiras as estima-

tivas de e obtidas pelo mtodo da mxima verosimilhana, os scores fatoriais
para o j-simo indivduo da amostra so as m componentes do vetor
1
bT
bfj = bT +
b b (xj x), j = 1, 2, . . . , n. (3.9)
Para uma informao mais completa sobre a obteno dos scores fatoriais pode
consultar-se [3], pgs. 429-434.
3.6.3. Relao entre as estimativas obtidas pelos dois mtodos
possvel relacionar os scores factoriais obtidos pelo mtodo dos mnimos quadrados
ponderados e pelo mtodo da regresso, quando, em (3.8), usamos =
b e = .
b
De facto, nestas condies, denotando fM

j
Q
e fR
j os scores obtidos para o j-simo
indivduo da amostra, j = 1, 2, . . . , n, pelo mtodo dos mnimos quadrados e pelo

mtodo da regresso, respetivamente, tem-se
fR b T b 1 b 1 b T b 1 b M Q
j = (I + ) fj (3.10)
Para verificar a validade desta relao necessitamos do resultado do lema 6,

em cuja prova se usam os lemas 4 e 5. Apresentam-se a seguir estes trs lemas e
respetivas provas.
1 1
Lema 4. I + b 1
bT b b 1
bT b =I I + b 1
bT b
Demonstrao. Multiplicando esquerda ambos os membros da igualdade trivial

1
b 1
bT b = I + b 1
bT b 1
bT
b I por I + b , obtm-se
1 1 h i
I + b 1
bT b b 1
bT b = I + b 1
bT b b 1
bT
I + b I ,
que equivalente ao que se pretende provar.

1 1
Lema 5.
bbT +
b b 1
= b 1
b I + b 1
bT b b 1
bT
Demonstrao. Vamos verificar que a igualdade enunciada equivalente a uma igual-

dade trivial, o que prova a sua veracidade. Em primeiro lugar, multiplicando aquela
igualdade, direita, por
bb T + ,
b resulta a igualdade equivalente
1
b 1
I= b b 1
bT + I b I + b 1
bT b b 1
bT bbT +
b ,
que, por seu lado, equivalente a

1 1
b 1
0= b b 1
bT b I + b 1
bT b b 1
bT bbT + I + b 1
bT b bT .

37
Usando agora o lema 4, esta igualdade pode ser escrita na forma

1 1
b 1
0= b b 1
bT b b 1
bT
I I + b T T b 1 b
+ I +
b b T
,
b
que, como facilmente se verifica, uma igualdade verdadeira.
b T (
Lema 6. b b 1 = (I +
b T + ) b 1 )
bT b 1 b 1
bT
Demonstrao. Comeamos por multiplicar ambos os membros da igualdade pre-

b T e, seguidamente, pomos
sente no lema 5, esquerda, por b 1 em evidncia,
bT
direita. Resulta ento

1
b T (
b b 1 = I
b T + ) b 1
bT b 1
bT
b I + b b 1 .
bT

Como facilmente se verifica, a matriz I + b 1

bT b simtrica, pelo que, transpondo
ambos os membros da igualdade do lema 4, obtemos

1 1
b 1
bT b I + b 1
bT b =I I + b 1
bT b .
Usando este resultado na igualdade anterior, obtm-se de imediato o resultado pre-

tendido.
Vamos ento verificar a igualdade (3.10). Usando o lema 6 e atendendo a (3.9),

tem-se, para cada j = 1, 2, . . . , n,
1
fR
j
bT
= bbT +
b (xj x)
b 1 )
bT
= (I + b 1 b 1 (xj x).
bT
Por outro lado, de (3.8), tem-se
b 1 (xj x) =
bT
bT b fM Q .
b 1
j
Conjugando esta igualdade com a anterior, obtm-se a relao (3.10).
38
Captulo 4
Exemplo de aplicao da
Anlise Fatorial
Neste captulo, apresentamos um exemplo de aplicao da anlise fatorial. Vamos

usar o ficheiro World.95, do SPSS, que contm informao sobre 108 pases dos cinco
continentes em 26 variveis. Neste exemplo apenas consideramos variveis quanti-
tativas, pelo que exclumos do estudo as quatro variveis qualitativas que surgem
no ficheiro mencionado. Exlumos tambm outras trs variveis que so logaritmos
de variveis consideradas e, portanto, redundantes. Os missings so tratados pelo
procedimento listwise, no qual apenas se consideram os registos que tm informao
sobre todas as variveis, opo standard do software estatstico utilizado, o SPSS.
Desta forma, so includos na anlise apenas 59 pases. As variveis consideradas no
estudo so: Percentagem de pessoas que habitam nas cidades, Longevidade da popu-
lao do sexo feminino, Longevidade da populao do sexo masculino, Percentagem
da populao literada, Percentagem da populao do sexo feminino literada, Percen-
tagem da populao do sexo masculino literada, Taxa de mortalidade infantil, Taxa
de mortalidade, Taxa de natalidade, Taxa de fecundidade, Mdia de calorias dirias
ingeridas por pessoa, Percentagem de crescimento populacional por ano, Quociente
entre taxas de natalidade e mortalidade, Casos sida no total da populao, Taxa
de sida, Produto interno bruto per capita, Percentagem de crescimento da produo
agrcola, Populao em milhares e Densidade populacional. Relativamente ao ficheiro
original, todas as variveis que so taxas so uniformizadas para mil habitantes.
O nosso objetivo determinar os fatores subjacentes e dar alguma interpretao

aos mesmos. Veremos que h variveis que no podem ser consideradas normais, pelo
que no podemos admitir a normalidade do vetor aleatrio formado pelas variveis
acima listadas. Com tal, usaremos apenas o mtodo das componentes principais
para estimar os pesos fatoriais.
39
Captulo 4 Exemplo de aplicao da Anlise Fatorial
4.1. Anlise preliminar dos dados
A normalidade de cada uma das variveis que entra no estudo no garante a nor-
malidade do correspondente vetor aleatrio, X. No entanto, se uma das variveis
no for normal, o vetor no normal. Como queremos testar a normalidade de cada
varivel isoladamente, utilizamos o procedimento pairwise para tratar os missings.
De acordo com este procedimento usamos todos os dados disponveis para cada va-
rivel. Tendo em conta que a dimenso das amostras em estudo varia entre 75 e 108,
o teste mais indicado para testar a normalidade o teste de Kolmogorov-Smirnov
com correo de Lilliefors. Os resultados correspondentes encontram-se na figura
4.1. Verificamos que, ao nvel de significncia 0.05, apenas uma delas pode ser con-
siderada normal e, mesmo esse caso tem associado um p-valor muito baixo (0.052).
Figura 4.1: Teste de Kolmogorov-Smirnov.
40
4.2 Aplicao da anlise fatorial
Podemos assim concluir que o vetor X no pode ser considerado normal.

Como vimos no captulo anterior, no faz sentido aplicar a anlise fatorial se
as correlaes entre as variveis forem fracas. Sendo violado o pressuposto de nor-
malidade do vetor X, no devemos usar o teste de esfericidade de Bartlett, pelo
que recorremos ao valor da estatstica KMO para avaliar a adequao dos dados
aplicao da anlise fatorial. Como se pode observar na figura 4.2, tal valor 0.821,
pelo que faz sentido aplicar a anlise fatorial.
Figura 4.2: Valor KMO e teste de esfericidade de Bartlett.
4.2. Aplicao da anlise fatorial
Vamos utilizar apenas o mtodo das componentes principais na estimao da matriz

dos pesos fatoriais, uma vez que, como vimos, o vetor X no deve ser considerado
normal, logo no faz sentido aplicar o mtodo da mxima verosimilhana. Usamos
para tal a matriz de correlaes da amostra, R. Comeamos por determinar os
seus valores prprios, relembrando que a varincia da j-sima componente princi-
pal amostral coincide com o j-simo maior deles, sendo assim possvel calcular a
percentagem de varincia total explicada por cada uma das componentes principais
amostrais. Na tabela 4.3 apresentam-se os resultados referidos acima.
41
Figura 4.3: Valores prprios e percentagens de varincia explicada das 19 compo-

nentes principais amostrais.
Analisando a tabela 4.3, por exemplo o valor l1 = 9.314 representa a varincia

amostral da primeira componente principal. Dividindo pela soma de todas as va-
rincias, obtemos a percentagem de varincia que a primeira componente explica
em relao ao total, aproximadamente 49%. De acordo com o critrio de Kaiser
retm-se 5 componentes principais, tantas quantos os valores prprios maiores que
um. Para confirmar o nmero de fatores a reter pode utilizar-se o scree plot, grfico
que se apresenta na figura seguinte.
42
Figura 4.4: Scree plot.
Verifica-se que a linha poligonal decresce rapidamente nos primeiros 5 fatores,

os quais explicam a maior parte da varincia total, aproximadamente 85%.
O passo seguinte determinar a matriz de pesos fatoriais que, no SPSS, dada
na tabela component matrix, de forma a construir e interpretar os fatores. No quadro
que se segue apresentamos os pesos fatoriais estimados pelo mtodo das componentes
principais.
43
Figura 4.5: Matriz de pesos fatoriais.
No entanto, tal como j foi referido, a interpretao de cada um dos fatores

mais fcil recorrendo aos pesos fatoriais rotacionados. Os valores dos pesos fato-
riais rotacionados segundo o critrio Varimax so apresentados na tabela seguinte,
denominada rotated component matrix.
44
Figura 4.6: Matriz de pesos fatoriais rotacionada segundo critrio Varimax.
Recorde-se que os pesos fatoriais mais elevados em valor absoluto identificam o

fator a que cada varivel se associa. Assim, considerando apenas os pesos fatoriais
em valor absoluto superiores a 0.45 (realados a negrito na tabela rotated component
matrix), podemos considerar os fatores que se descrevem a seguir.
Fator 1: Este fator constitudo por 11 variveis, das quais 7 so fortemente

correlacionadas positivamente e 4 so fortemente correlacionadas negativa-
mente. No primeiro grupo incluem-se as variveis Percentagem de pessoas que
habitam nas cidades, Longevidade da populao do sexo feminino, Longevidade
da populao do sexo masculino, Percentagem da populao literada, Percen-
tagem da populao do sexo feminino literada, Percentagem da populao do
sexo masculino literada e Mdia de calorias dirias ingeridas por pessoa e no
45
segundo grupo incluem-se as variveis Taxa de mortalidade infantil, Taxa de

mortalidade, Taxa de natalidade e Taxa de fecundidade. Estudos das cincias
sociais indicam que as pessoas que habitam nas cidades so, em mdia, mais
instrudas e tm elevada esperana mdia de vida. Alm disso, nas cidades
o nmero mdio de calorias ingeridas por pessoa grande, em consequncia
do popularizar das refeies base de fast food. Por outro lado, nos mesmos
locais, as taxas de mortalidade da populao geral e infantil, assim como as
taxas de natalidade e fecundidade, so baixas. Este motivo explica as corre-
laes negativas das variveis referidas. Um nome sugestivo para este fator
Dicotomia cidade/campo.
Fator 2: Percentagem de crescimento populacional por ano e quociente entre
taxa de natalidade e taxa de mortalidade so as variveis que tm pesos fa-
toriais mais elevados neste fator. Era de esperar que as variveis em questo
fossem fortemente correlacionadas e constituissem um fator, uma vez que, se
o quociente referido for menor que 1 indica que existem mais mortes que nas-
cimentos conduzindo ao decrscimo da populao. Se esse quociente for maior
que 1 indica o oposto. Este fator denominar-se- Demografia.
Fator 3: As variveis que apresentam pesos fatoriais mais elevados neste fator
so Casos sida no total da populao, Taxa de sida e Produto interno bruto
per capita. O produto interno bruto por pessoa um indicador fivel do ndice
de desenvolvimento de um pas. Neste sentido, quando este valor baixo, as
condies sociais no pas em questo so propcias delinquncia, conduzindo
ao aumento dos casos de HIV. Vamos denominar este fator de Qualidade de
vida.
Fator 4: As variveis que apresentam pesos fatoriais mais elevados em valor
absoluto neste fator so Percentagem de crescimento da produo agrcola e
Populao em milhares. Em pases com produes agrcolas abundantes e com
tendncia crescente, o nmero de habitantes , em geral, mais elevado que na
situao oposta. Este fator ser denominado Importncia da produo agrcola
para a populao.
Fator 5: A nica varivel que entra neste fator Densidade populacional. Esta
varivel no fortemente correlacionada com as restantes variveis que inte-
gram o exemplo. Desta forma, este fator designar-se- Densidade populacional.
46
Em resumo, as 19 variveis originais passam a constituir 5 fatores relacionados

com a dicotomia cidade/campo, a demografia, a qualidade de vida, a importncia
da produo agrcola para a populao e a densidade populacional. Verifica-se que
o nmero de variveis relativamente pequeno, resultando em fatores com poucas
variveis, nomeadamente o quinto fator.
Para finalizar, observamos que a interpretao e rotulagem dos fatores pode ser
muito subjetiva. Pode at haver mais do que uma soluo para o problema, na
medida em que podem ser considerados mais ou menos fatores e, para um mesmo
nmero de fatores, podemos usar mais do que um mtodo de rotao da matriz de
pesos fatoriais. Neste sentido, o ideal o estabelecimento de um dilogo contnuo
entre pesquisador e estatstico para que o primeiro possa apontar possveis solues
e o segundo possa informar os limites e possibilidades das tcnicas estatsticas.
47
48
Bibliografia
[1] T. W. Anderson, An Introduction to Multivariate Statistical Analysis, John

Wiley & Sons, Inc., New York, 1958.
[2] W. R. Dillon, M. Goldstein, Multivariate Analysis, Methods and Applications,

John Wiley & Sons, Inc., New York, 1984.
[3] R. A. Johnson, D. W. Wichern, Applied Multivariate Statistical Analysis,

Prentice-Hall International, Inc., New Jersey, 1992.
[4] D. N. Lawley, Test of Significance for the Latent Roots of Covariance and
Correlation Matrices, Biometrika, 43, 128-136, 1956.
[5] J. Maroco, Anlise Estatstica, com utilizao do SPSS, Edies Slabo, 3a Edi-
o, Lisboa, 2007.
[6] R. J. Muirhead, Aspects of Multivariate Statistical Theory, John Wiley & Sons,
Inc., New York, 1982.
[7] M. H. Pestana, J. N. Gageiro, Anlise de dados para Cincias Sociais - A

complementaridade do SPSS, 4a Ed., Edies Slabo, Lisboa, 2005.
49

Analise Fatorial - FranciscoCarvalho

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Analise Fatorial - FranciscoCarvalho

Загружено:

Авторское право:

Доступные форматы

Anlise Fatorial

Francisco Ricardo Duarte Carvalho

Francisco Ricardo Duarte Carvalho

Dissertao para a obteno do Grau de Mestre em Matemtica

Presidente: Maria Emlia Mesquita Nogueira

Data: Setembro 2013

Anlise fatorial, componentes principais, matriz de varincias-covarincias, valores

Keywords: Factor analysis, principal components, variance-covariance matrix,

eigenvalues and eigenvectors, multivariate normal distribution, maximum likelihood

4 Exemplo de aplicao da Anlise Fatorial 39

As diversas cincias tm a pretenso de conhecer a realidade e de interpretar os

Para ilustrar o contexto de aplicao da anlise fatorial, considere-se o caso

Historicamente, a ideia subjacente anlise fatorial atribuda aos psiclogos,

O modelo fatorial constitudo pelos fatores F1 , . . . , Fm , m p, definido por

onde ij so coeficientes reais, chamados pesos fatoriais (loadings), i o valor mdio

Dada a sua importncia, o captulo 2 deste trabalho dedicado obteno das

No captulo 3 estuda-se o modelo ortogonal de anlise fatorial. Depois da de-

O objetivo essencial da anlise de componentes principais descrever a estrutura

O processo subjacente obteno das componentes principais construtivo na

Frequentemente as variveis X1 , X2 , . . . , Xp so de natureza diversa e algumas

Na prtica, no conhecemos a matriz de correlaes nem a matriz de varincias-

2.1. Deduo das componentes principais

Seja X = [X1 X2 . . . Xp ]T um vetor aleatrio real de dimenso p com vetor mdia

onde os coeficientes aij , i, j = 1, 2, . . . , p, so constantes reais satisfazendo determi-

De facto, Y = E(AT Z) = AT E(Z) = 0. No que diz respeito matriz de varincias-

onde aj representa a j-sima coluna de A, j = 1, 2, . . . , p. Ora aTr C as precisamente

V (Y1 ) V (Y2 ) . . . V (Yp );

Teorema 1. Sejam 1 2 . . . p > 0 os valores prprios da matriz C e

Tem-se ainda que

Demonstrao. Usamos o mtodo multiplicadores de Lagrange para determinar

1 (a1 ) = aT1 Ca1 l(aT1 a1 1),

Relativamente ao gradiente de g, tem-se

Quanto ao gradiente de f , verifica-se que

onde Ip representa a matriz identidade de ordem p.

V (Y1 ) = aT1 Ca1 = aT1 la1 = l.

O passo seguinte consiste em encontrar a2 de forma a maximizar V (Y2 ) de modo

f (a2 ) = V (Y2 ) = aT2 Ca2

A funo de Lagrange ento dada por

onde l1 e l2 so multiplicadores de Lagrange. Efetuando clculos anlogos aos do

Multiplicando ambos os membros da primeira equao de (2.3), esquerda, por eT1

2Ca2 = 2l1 a2 + l2 Ce1 2eT1 Ca2 2l1 eT1 a2 l2 1 eT1 e1 = 0

f (aj ) = V (Y2 ) = aTj Caj

gi (aj ) = i1 aTj ei1 , i = 2, . . . , j

A funo de Lagrange agora

Aps multiplicarmos ambos os membros da primeira igualdade de (2.4) por eTj1 ,

Seguidamente, a multiplicao de ambos os membros desta igualdade por eTj2 ,

Note-se que a componente principal Yj , j = 1, . . . , p, no nica por no ser

Proposio 1. Sejam Y1 , Y2 , . . . , Yp as p componentes principais correspondentes

Demonstrao. Seja a matriz cujas colunas so os vetores prprios e1 , . . . , ep asso-

so normados e mutuamente ortogonais, a matriz ortogonal e tem-se

Assim, a percentagem de varincia total explicada pelas k primeiras componentes

Proposio 2. Sejam Y1 , Y2 , . . . , Yp as componentes principais das variveis alea-

Demonstrao. Para cada k = 1, . . . , p, tem-se Zk = uTk Z, onde uTk = [0 . . . 0 1 0 . . . 0],

Cov(Zk , Yj ) = Cov(uTk Z, eTj Z) = uTk Cej

Alm disso, usando em vez de C na demonstrao da proposio 1, obtm-se

Finalmente, como se ilustra no exemplo seguinte, notamos que as componentes

Exemplo 1. Considere-se um vetor aleatrio X = [X1 X2 ]T com matriz de varincias-

Os valores prprios de so 2 = 4.3028 e 1 = 0.6972, tendo como correspondentes

A matriz de correlaes correspondente a dada por

Tem-se agora 1 = 1.5, 2 = 0.5, e1 = [0.7071 0.7071]T e e2 = [0.7071 0.7071]T .

= 0.3536 (X1 1 ) + 0.7071 (X2 2 ),

onde [1 2 ]T representa o vetor mdia de X.

2.2. Estimao em componentes principais

= E[(F + )(F + )T ]

= E[F(F)T + FT + (F)T + T ]

= E(FFT )T + E(FT ) + E(FT )T + E(T )

uma vez que E(FT ) = Cov(F, ) = 0.

Cov(X, F) = E((F + )FT ) = E(FFT ) + E(FT ) = .