Академический Документы
Профессиональный Документы
Культура Документы
ANÁLISE FATORIAL
Uma Introdução
ÍNDICE
Página
1. INTRODUÇÃO .......................................................................................................... 1
2. MODELO TEÓRICO ................................................................................................. 2
3. PROCEDIMENTOS GERAIS PARA A ANÁLISE FATORIAL ("FACTOR
ANALYSIS") ............................................................................................................. 5
3.1. Considerações Iniciais ......................................................................................... 5
3.2. Estágios ................................................................................................................ 5
4. MÉTODOS DE ESTIMAÇÃO DAS CARGAS DOS FATORES ............................ 6
4.1. Método do Componente Principal ....................................................................... 6
4.2. Método do Fator Principal ................................................................................... 10
4.2.1. O Problema da Comunalidade ....................................................................... 11
4.3. Método da Máxima Verossimilhança .................................................................. 12
5. ROTAÇÃO DOS FATORES ..................................................................................... 15
5.1 Método Varimax ................................................................................................... 15
6. ESTIMAÇÃO DOS VALORES DOS FATORES ..................................................... 20
6.1. Método da Regressão (Método de Thomson)...................................................... 20
6.2. Método dos Mínimos Quadrados Ponderados (Método de Bartlett) ................... 21
7. EXEMPLOS DE APLICAÇÃO ................................................................................. 22
7.1. Exemplo 1 ............................................................................................................ 23
7.2. Exemplo 2 ............................................................................................................ 27
8. POSSÍVEIS FONTES DE ERROS EM ANÁLISE FATORIAL .............................. 38
9. NÚMERO E SIGNIFICADO DOS FATORES ......................................................... 39
10. PERSPECTIVAS E ESTRATÉGIAS PARA ANÁLISE FATORIAL .................... 41
11. REFERÊNCIAS BIBLIOGRÁFICAS ..................................................................... 42
0
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
1. INTRODUÇÃO
1
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
2. MODELO TEÓRICO
Variáveis
indivíduos X1 X2 ... Xp
1 x 11 x12 ... x 1p
2 x 21 x 22 ... x 2p
... ... ... ...
n x n1 x n2 ... x np
onde X j é a j-ésima variável, a j1 , a j2 , ⋅⋅⋅, a jm são as cargas dos fatores para a j-ésima
variável e F1 , F2 , ⋅⋅⋅, Fm são m fatores comuns não correlacionados, com m menor que p.
Os p valores observados X p são expressos em termos de p + m variáveis aleatórias
não observáveis ( F1 , F2 ,! , Fm ; ε 1 , ε 2 ,! , ε p ). Isso distingue o modelo fatorial do modelo de
* Observe que, no presente modelo, foi desconsiderado o vetor de médias de cada variável simplesmente para simplificar a
exposição teórica, mas sem perda de generalidade. Seria como se estivéssemos trabalhando com as observações centradas, o
que consiste em subtrair, de cada observação, o valor da média das observações. O modelo, considerando-se o vetor de
médias, seria: X j = µ + a j1F1 + a j2 F2 + ⋅⋅⋅ + a jm Fm + e j o que corresponde a
X j − µ = a j1F1 + a j2 F2 + ⋅⋅⋅ + a jm Fm + e j
2
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
regressão múltipla, no qual as variáveis independentes podem ser observadas, e cujas posições
são ocupadas por F no modelo fatorial.
Matricialmente teríamos
X = ( pxm
( px1)
Λ ) ( mxF1) + ( pxε1) (eq.2.2)
Uma verificação direta do modelo fatorial, à partir das observações X1, X2,..., Xp, é
impossibilitada por tantas quantidades não observáveis. Entretanto, com algumas pressupo-
sições impostas aos vetores aleatórios, F e ε, o modelo fatorial implica em certas relações de
covariância, que podem ser verificadas (JOHNSON & WICHERN, 1988). Assim os vetores F
e ε devem satisfazer as seguintes condições:
E(F) =
( mx1)
I)
0 ,Cov(F) = E(FF`) = ( mxm
E(ε) = 0 , Cov(ε) = E[εε`] = ( pxp
( px1)
ψ ) onde ψ é uma matriz diagonal
Cov(ε,F) = E(εF`) = 0
( pxm)
(eq.2.3)
3
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
4
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
3.2. Estágios
5
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
6
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
⎡ λ1 v1, ⎤
⎢ ⎥
⎢ λ 2 v 2, ⎥
[ ]
λ1 v1 " λ 2 v 2 "!" λ p v p ⎢ ⎥ (eq.4.1)
⎢! ⎥
⎢ λ v , ⎥
⎣ p p ⎦
Um exemplo numérico poderia ilustrar essa igualdade:
Consideremos a matriz simétrica
⎡ 13 − 4 2 ⎤
B = ⎢⎢− 4 13 − 2⎥⎥
⎣⎢ 2 − 2 10 ⎥⎦
Os autovalores, obtidos à partir da equação característica |B-λI| = 0, são λ 1 = 18, λ 2 =
9 e λ 3 = 9. Os correspondentes autovetores v1 , v2 e v3 , obtidos após substituição de cada
autovetor na equação (B- λ j I) v j = 0, com posterior processo de normalização, são:
⎡ 2 3 ⎤ ⎡ 1 18
⎤ ⎡ 1 2 ⎤
⎢ ⎥
v1 = ⎢⎢−2 3 ⎥⎥,v2 = ⎢ −1 ev = ⎢⎢ 1 2 ⎥⎥
18 ⎥ 3
⎢⎣ 13 ⎥⎦ ⎢−4
⎣
⎥
18 ⎦
⎢⎣ 0 ⎥⎦
7
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
⎡ 13 − 4 2 ⎤ ⎡ 2 3 ⎤ ⎡ 1 18
⎤
⎢− 4 13 − 2⎥ = 18⎢−2 ⎥[2 ⎢ ⎥
⎢ ⎥ ⎢ 3 ⎥ 3
−2
3
1 ] +9 −1
3 ⎢ 18 ⎥
[ 1
18
−1
18
−4
18
]+
⎢⎣ 2 − 2 10 ⎥⎦ ⎢⎣ 13 ⎥⎦ ⎢−4
⎣
⎥
18 ⎦
⎡ 1 2 ⎤
+9⎢⎢ 1 2 ⎥⎥[ 1 2
1
2
0]=
⎢⎣ 0 ⎥⎦
Σ
( pxp)
= Λ Λ' + 0 = Λ Λ'
( pxp) ( pxp) ( pxp)
(eq.4.2)
8
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Para aplicar esta aproximação para um conjunto de dados x1j, x2j, ..., xnj, normal-
mente, as observações são centradas pela subtração da média amostral x j. As observações
centradas
⎡ xi1 ⎤ ⎡ x1 ⎤ ⎡ xi1 − x1 ⎤
⎢ x ⎥ ⎢ x ⎥ ⎢ x − x ⎥
( x ij − x j ) = ⎢ i 2 ⎥ − ⎢ 2 ⎥ = ⎢ i 2 2 ⎥
'
, i = 1, 2, ..., n
⎢ ! ⎥ ⎢!⎥ ⎢ ! ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢⎣ xip ⎥⎦ ⎢⎣ x p ⎥⎦ ⎢⎣ xip − x p ⎥⎦
9
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
X = ( pxm
( px1)
Λ ) ( mxF1) + ( pxε1)
onde a ij = λ j v ji
Após a rotação, caso tenha sido necessária, a nova solução terá a forma:
X = GF* + ε ou seja
x1 = g11 F1* + g12 F2* +... + g1m Fm* + e1
x 2 = g 21 F1* + g 22 F2* +... + g 2 m Fm* + e 2
...
x p = g p1 F1* + g p2 F2* +... + g pm Fm* + e p
onde Fk representa o novo k-ésimo fator, e x representa os valores padronizados da variável
*
em apreço (ou seja, poderiam ser representados por z), e gpm representa as novas cargas dos
fatores após a rotação. É importante salientar que após a rotação a comunalidade não é
alterada.
Conforme comentado por JOHNSON & WICHERN (1988) este método se comporta
como uma modificação do método do componente principal, citado anteriormente.
Serão descritas as idéias do método, baseado na análise de fatores da matriz de
correlação amostral R, apesar do procedimento também ser apropriado para o caso de
trabalharmos com a matriz de covariância amostral S.
Se a matriz de correlação for adequadamente descrita pelo modelo fatorial
ρ = ΛΛ ' + Ψ , então os m fatores comuns podem ser usados para determinar os elementos fora
da diagonal principal de ρ e as comunalidades da diagonal, ou seja, ρ ii = 1 = h 2i + ψ i . Se a
contribuição do fator específico ψi for removida da diagonal, ou seja, se o valor um for
substituído por h 2i , a matriz resultante será ρ − Ψ = ΛΛ ' .
Do ponto de vista algébrico, o método tem por base obter um conjunto de fatores, de
modo que o mais importante fator comum (fator principal) seria o fator comum, com o
máximo de contribuição para a comunalidade total, o segundo mais importante (segundo fator
principal) seria o fator comum com a segunda maior contribuição para a comunalidade total, e
assim por diante, até que toda comunalidade tenha sido analisada (FACHEL, 1976).
A solução pelo método do fator principal requer que as comunalidades sejam
especificadas antes do primeiro fator ser extraído. A escolha das comunalidades a serem
substituídas na matriz de correlações é conhecida como "o problema da comunalidade"
(KARSON, 1982) e cinco propostas de escolha são dadas na seção 4.2.1.
10
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
em que h! 2j são obtidos a priori, por um dos processos descritos na seção 4.2.1.
Dessa maneira, todos os elementos da matriz de correlação reduzida R* poderiam ser
determinados pelos m fatores comuns.
À partir da matriz de correlação reduzida R*, aplica-se o método dos componentes
principais conforme comentado na seção 4.1. Escolhe-se então os m primeiros maiores
autovalores dessa matriz e os m autovetores normalizados correspondentes, obtendo-se, então,
a matriz das cargas fatoriais estimadas pela solução dos fatores principais e que é dada por:
!= λv
Λ j j
JOHNSON & WICHERN (1988) comentam também que tal procedimento pode ser
usado iterativamente, com as comunalidades reestimadas pela expressão anterior como sendo
as estimativas iniciais para o estágio seguinte.
Embora o método do componente principal de R possa ser visto como método do fator
principal, com as comunalidades iniciais estimadas iguais a unidade, ou variâncias específicas
iguais a zero, os dois métodos são filosófica e geometricamente diferentes (HARMAN, 1967).
Na prática, no entanto, os dois freqüentemente geram carregamentos fatoriais comparáveis, se
o número de variáveis for grande e o número de fatores comuns pequeno (JOHNSON &
WICHERN, 1988).
Foi observado acima, que a solução pelo método do fator principal requer um
conhecimento a priori das p comunalidades h12 , h 22 , !, h 2p , para formar a matriz de
correlação reduzida R*.
Existem vários métodos para estimar as comunalidades. Os mais comuns, conforme
citado por KARSON (1982), são:
a) h! 2j = 1 (j = 1, 2, ..., p), ou seja, tomar cada comunalidade como sendo igual a 1. Dessa
forma R* = R e a solução pelo método do fator principal seria idêntica à solução pelo
método do componente principal.
b) h! 2j = R 2j.1 , 2,..., j−1 , j+1 ,..., p , onde R 2 é o quadrado do coeficiente de correlação múltipla entre
a variável X j e todas as outras. Tipicamente esse valor é calculado por
11
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
1
1−
rjj
obtida. Esse processo iterativo é mantido até que tenhamos pequenas diferenças nas
comunalidades de uma etapa para a outra.
Para um número de variáveis (p) maior que 10, Gnanadesikan (1977), citado por
KARSON (1982), diz parecer haver pequenas diferenças nas soluções baseadas nos cinco
métodos
12
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
− ( n −1)/ 2 t r ( S Σ −1 )
L =| Σ|−( n −1)/ 2 e
{ [
ln L = −[(n − 1) / 2] ln | ΛΛ'+Ψ | +tr S (ΛΛ'+Ψ) −1 ]} (eq.4.5)
Λ (
ˆ I +Λˆ 'Ψ
ˆ −1 Λ )
ˆ = SΨ ˆ −1 Λ
ˆ (eq.4.6)
! = diag(S − ΛΛ
Ψ ! !' ) (eq.4.7)
onde Ψ! em (eq.4.7) é uma matriz diagonal, cujos elementos são os elementos diagonais da
matriz (pxp) S − ΛΛ! ! ' . Segundo KARSON (1982), numerosos métodos iterativos têm sido
propostos para resolver as equações (eq.4.6) e (eq.4.7) com o objetivo de obter a solução de
máxima verossimilhança, para um determinado conjunto de dados. O referido autor afirma
ainda que, independentemente do método utilizado, uma grande quantidade de recursos com-
putacionais é exigida.
A solução pelo método da máxima verossimilhança usa a matriz de covariância
amostral S, não a matriz de correlação amostral R, e portanto não assume implicitamente, que
os valores das variáveis estão padronizados. Se os valores Xi na população são supostos
padronizados, então Σ = Γ; e usando R nas expressões (eq.4.6) e (eq.4.7) no lugar da S,
* Temos que a matriz S é dada por A/(n-1), sendo A a matriz formada pelas somas de quadrados e somas de
produtos das variáveis em questão. Para maiores detalhes sobre essa distribuição, ver KARSON (1982) páginas
75-77 e JOHNSON & WICHERN (1988).
13
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
resultará em cargas dos fatores diferindo daquelas baseadas em S pelo fator 1/ s i i , o termo
constante na padronização (KARSON, 1982).
Uma vantagem do método da máxima verossimilhança é que ele permite ao analista
verificar se o modelo proposto é adequado, a partir de um teste de hipótese formal.
Independente de qual método seja usado, o analista deveria observar as magnitudes dos
elementos da matriz residual Σ − ( ΛΛ' + Ψ ) para um dado número de fatores m. Quanto me-
nores estes elementos, melhor a solução obtida reproduz Σ, sendo também melhor a estrutura
proposta para X j .
Quando o método da máxima verossimilhança é usado, o teste pode ser feito da
seguinte maneira:
H 0 : Σ = ΛΛ' + Ψ
pelo teste devido a Lawley (1940) e Bartlett (1951), citado por KARSON (1982), tomando-se
n > p e onde o número de graus de liberdade v = 21 [( p − m) 2 − ( p + m)] , em que a
estatística do teste é:
ˆΛ
2 p + 4m + 5 ⎧⎪ ⎛ | Λ ˆ '+ Ψˆ | ⎞ ⎫⎪
2
χ calc . = (n − 1 −
6
)⎨ln⎜⎜
| S | ⎟ (
⎢
⎣
ˆΛ
⎟ + tr ⎡ Λ ˆ '+ Ψ
ˆ )
−1
S ⎤ − p ⎬
⎥⎦
⎪⎩ ⎝ ⎠ ⎪⎭
2
ˆΛ
2 p + 4m + 5 ⎧⎪ ⎛ | Λ ˆ '+ Ψ
ˆ | ⎞⎫⎪
. = (n − 1 − )⎨ln⎜⎜
χ calc ⎟⎬
6 ⎪⎩ ⎝ | S | ⎟⎠⎪⎭
14
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
H 0 : Γ = Λ* Λ* ' + Ψ*
contra
H1: Γ ≠ Λ* Λ* ' + Ψ*
2
ˆ *Λ
2 p + 4m + 5 ⎧⎪ ⎛ | Λ ˆ * '+ Ψ
ˆ * | ⎞⎫⎪
χ calc. = (n − 1 − )⎨ln⎜
⎜ ⎟⎬
⎟⎪
6 ⎪⎩ ⎝ |R| ⎠⎭
sendo R a matriz de correlação amostral, e Λ* e Ψ * as matrizes das cargas dos fatores e das
variâncias específicas, respectivamente, obtidas à partir dos dados padronizados. Pode-se
provar (JOHNSON & WICHERN, 1988) que os valores dos qui-quadrados calculados,
considerando a padronização das variáveis ou não , seriam exatamente os mesmos.
Para procurar uma melhor interpretação dos fatores, é prática comum fazer uma
rotação ou uma transformação dos fatores.
Pode ser mostrado que o conjunto de cargas fatoriais, obtidas por qualquer método de
solução fatorial, quando o número de fatores comuns é maior do que um, não é único, pois
outros conjuntos equivalentes podem ser encontrados, por transformações ortogonais de
cargas. Em outras palavras, se nós multiplicarmos a matriz de cargas fatoriais pΛm, por uma
matriz ortogonal mMmN, a decomposição da matriz de covariância ∑ não é única, pois se M
é ortogonal, então:
Assim, mesmo que os elementos de ΛM sejam diferentes das cargas originais, sua habilidade
em gerar as covariâncias observadas é inalterada.
Na expressão X = ΛF + ε , se nós trocarmos F por M ' F , além de Λ por ΛM,
observamos que a expressão não se altera, pois M é ortogonal. Na terminologia da análise
fatorial, temos o que se chama rotação dos fatores.
Apesar de estarmos livres para escolher qual rotação fazer, de modo a termos uma
melhor interpretação dos fatores, não é aconselhável fazermos isto subjetivamente, porque
poderíamos estar forçando o ajuste das cargas dos fatores com um padrão preconcebido.
Partindo, portanto, para métodos analíticos de rotação dos fatores, uma escolha conve-
niente e mais utilizada é o chamado método Varimax, que será descrito de maneira resumida.
Este método de rotação ortogonal foi proposto por Kaiser (1958), citado por COOLEY
& LOHNES, 1971. A idéia do método consiste no seguinte: Para cada rotação dos fatores que
15
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
ocorre, há o aparecimento de altas cargas para poucas variáveis, enquanto que as demais
cargas ficarão próximas de zero. No início Kaiser definiu a simplicidade de um fator k como a
variância do quadrado de suas cargas, isto é:
2
1 p 2 2 1 ⎛ p 2 ⎞
2
s = ∑ a jk
k
p j =1
( ) − 2 ⎜⎜ ∑ a jk ⎟⎟
p ⎝ j =1 ⎠
Ou, de uma maneira mais simples, após a multiplicação da expressão anterior por p ,
2
4 2
m p m ⎛ p
⎛ a jk ⎞ ⎞
V = p∑ ∑ ⎜ ⎟ − ∑ ⎜⎜ ∑ a 2jk h 2j ⎟⎟ (eq.5.1)
k =1 j =1 ⎝
h j ⎠ k =1 j =1
⎝ ⎠
Esta expressão foi chamada por Kaiser como critério varimax normal ou simplesmente
critério varimax.
O procedimento de cálculo para a solução varimax é a que se segue. Os fatores são
rotacionados dois por vez de acordo com o esquema abaixo:
Esta expressão indica que a matriz dos fatores finais, B, corresponde ao produto das
transformações de todas as combinações de pares de fatores.
O conjunto completo de m(m-1)/2 pares de p e q (o que corresponde à combinação de
m fatores 2 a 2) é chamado "ciclo". Este ciclo será repetido até que o valor de V (eq.5.1)
mantenha-se relativamente estável.
As rotações varimax de cargas fatoriais, obtidas a partir de diferentes métodos de
estimação (componentes principais, máxima verossimilhança, etc.), em geral, não são coinci-
dentes. Da mesma forma, se fatores comuns adicionais são incluídos no modelo, o padrão de
16
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
a jq
yj = hj
e as cargas rotadas por Xj, Yj. A transformação de x j e y j em Xj e Yj se faz da seguinte
maneira:
⎡cosθ − senθ ⎤
( X j Y j ) = ( x j y j ) ⎢ ⎥
⎣senθ cosθ ⎦
onde θ é o ângulo de rotação no plano dos fatores k e q. Desde que quadrados e produtos
cruzados das cargas normalizadas serão requeridas no cálculo, as seguintes notações serão
necessárias:
u j = x2j − y2j
v j = 2 x jy j
A = ∑ uj
B = ∑ vj
C = ∑ ( u2j − v2j )
D = 2∑ u j v j
onde todas as somas são em j de 1 a p.
Kaiser (1959), citado por HARMAN (1968), mostrou que o ângulo de rotação seria
dado por:
D − 2 AB / n
tg 4θ = (eq.5.2)
C − ( A 2 − B2 ) / n
________________________
Obs.: Para cada rotação Tkq , o ângulo θ que faz com que (eq.5.1) seja máxima pode ser
determinado do seguinte modo:
a) substituímos na expressão (eq.5.1) os valores das novas cargas normalizados, obtidos do
produto
⎡ cosθ − sen θ ⎤
( x j y j ) ⎢
⎣sen θ cos θ ⎥⎦
17
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
1A solução inicial apresentada no Quadro 2, segundo HARMAN (1968), foi obtida pelo Método Centróide, a
partir de um conjunto de 8 variáveis físicas de 305 garotas (ver HARMAN, 1968, página 80. O mesmo autor
comenta ainda (pág. 171) que tal método tem apenas interesse histórico, por ter sido de grande importância antes
da farta disponibilidade de computadores.
18
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Este modelo de tabela é indicada como apropriada para todos os dados que porventura
possam ser utilizados no processo de rotação de um par de fatores. Logicamente, para a
rotação de 3 ou mais fatores, tal processo manual seria deveras trabalhoso e, portanto, não se
justificaria. A idéia principal deste exemplo é apenas compreender melhor como seria
realizada a rotação de fatores pelo método varimax.
Os valores de 2ujvj para cada variável não foram apresentados no Quadro 2, já que
apenas seu somatório D é requerido, sendo, portanto, facilmente obtido e igual ao valor -
0,6930. Por outro lado, desde que as diferenças u2j − v2j não são facilmente acumuladas numa
calculadora simples, elas são apresentadas para cada variável. Somente os somatórios (A, B e
C), requeridos no cálculo do ângulo de rotação, são apresentados na última linha do quadro.
Substituindo-se os valores na fórmula (eq.5.2) teremos:
Cargas Normalizadas
Variável Quadrados Solução Final
Rotacionadas
j
Xj Yj X2j Yj2 b j1 b j2
1 0,9554 0,2957 0,9128 0,0874 0,879 0,272
19
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Seja X = (X1, X2, ...,Xp)' o vetor das observações. Seja F = (F1, F2, ...,Fm)' o vetor
dos escores fatoriais e seja ε = (e1, e2, ..., ep)' o vetor dos resíduos. As pressuposições do
modelo fatorial, discutidas anteriormente, porém com uma modificação, seriam:
E(FF') = Φ
E(XF') = E[(ΛF+e)F'] = ΛE(FF') = ΛΦ
E(XX') = Σ = ΛΦΛ'+Ψ
onde Λ, Ψ, Φ são constantes, por terem sido estimados para um conjunto particular de dados.
20
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
F! k = aj'X = X'aj
! k - Fk) é
onde aj é um vetor de ordem p, escolhido de tal maneira que a variância de ( F
mínima. Temos
F! = Λ'Σ-1X (eq.6.1)
Para evitar a inversão de uma matriz pxp, podemos escrever esta expressão de forma
alternativa. Para isto fazemos uso da seguinte identidade:
F! = Φ(I+Λ'Ψ-1ΛΦ)-1Λ'Ψ-1X
que é a expressão para se obter os estimadores dos escores fatoriais, para o caso de fatores
correlacionados (oblíquos). Para Φ = I, isto é, quando os fatores são não correlacionados
(ortogonais), temos
F! = (I+Λ'Ψ-1Λ)-1Λ'Ψ-1X
Este método, desenvolvido por Bartlett (1938), citado por FACHEL (1976) adota o
princípio de mínimos quadrados. Os escores são obtidos de tal forma que a soma de
quadrados dos resíduos padronizados seja mínima, em relação aos elementos de F. Assim
p e 2j
∑ψ = e' ψ −1e = ( X − ΛF)' ψ −1 ( X − ΛF)
j=1 j
F! * = (Λ'Ψ-1Λ)-1Λ'Ψ-1X
que é a expressão para se obter os estimadores dos escores fatoriais, tanto no caso de fatores
correlacionados, como no caso de fatores não correlacionados.
21
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
__________________________
Obs.: De uma maneira mais simples, conforme apresentado por MANLY (1986), os novos
fatores poderiam ser estimados pela seguinte expressão:
`
( ) ( ) ( )
onde F * = F1* , F2* ,..., Fm* , X ` = X 1 , X 2 ,..., X p , e G é a matriz ( pxm) das novas cargas
dos fatores.
7. EXEMPLOS DE APLICAÇÃO
Nesse capítulo serão dados dois exemplos. O primeiro, mais simples, não ligado à área
florestal, apenas para o leitor ter uma noção inicial de como proceder aos cálculos. O
segundo, mais complexo, ligado à área florestal, será dado logo a seguir, e conterá as
principais saídas do programa computacional utilizado, acrescido de alguns comentários.
22
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
23
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
autovetores normalizados
autovalores X1 X2 X3 X4 X5 X6 X7 X8 X9
1 3,487 0,524 0,001 -0,348 -0,256 -0,325 -0,379 -0,074 -0,387 -0,367
2 2,130 0,054 0,618 0,355 0,261 0,051 -0,350 -0,454 -0,222 0,203
3 1,099 -0,049 0,201 0,151 0,561 -0,153 0,115 0,587 -0,312 -0,378
4 0,995 0,029 0,064 -0,346 0,393 -0,668 -0,050 -0,052 0,412 0,314
5 0,543 0,213 -0,164 -0,385 0,295 0,472 -0,283 0,280 -0,220 0,513
6 0,383 -0,153 0,101 0,289 -0,357 -0,130 -0,615 0,526 0,263 0,124
7 0,226 0,021 -0,726 0,479 0,256 -0,211 0,229 -0,188 -0,191 0,068
8 0,137 0,008 0,088 0,126 -0,341 0,356 0,388 0,174 -0,506 0,545
9 0,000 -0,806 -0,049 -0,366 -0,019 -0,083 -0,238 -0,145 -0,351 -0,072
4. Lembremos que as cargas dos fatores são dadas por a ij = λ j v ji , sendo λj o autovalor j
considerado e vji o autovetor normalizado correspondente ao autovalor j e à variável i.
24
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
1/ Muitas vezes esta técnica de análise multivariada é desprezada pela dificuldade em se nomear cada um dos
fatores obtidos e de se fazer as interpretações e discussões corretas.
25
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
O fator 1 tem uma alta carga positiva para X1 (agricultura) e altas cargas negativas
para X6 (indústrias de serviços), X8 (serviços pessoais e sociais) e X9 (transporte e
comunicação). Portanto, o fator 1 mostra o grau com o qual as pessoas estão empregadas na
agricultura ao invés de serviços e comunicação. Este primeiro fator poderia então ser
chamado "ênfase na agricultura e carência de indústrias de serviços".
O fator 2 tem altas cargas positivas para X2 (mineração) e X4 ((suprimento de
energia). Ele pode então ser chamado "ênfase em mineração e suprimento de energia.
O fator 3 tem altas cargas positivas em X6 (serviços industriais) e X7 (finanças) e altas
cargas negativas em X2 (mineração). Ele pode, então, ser chamado "ênfase em finanças e
indústrias de serviços e carência de mineração.
Finalmente, o fator 4 tem altas cargas negativas em X3 (manufatura) e X5
(construção) e altas cargas positivas em X1 (agricultura). "Carência de industrialização"
parece ser uma boa denominação neste caso.
O passo seguinte seria a obtenção dos valores dos fatores à partir da expressão (eq.6.3)
em que a matriz G seria dada pelas novas cargas dos fatores acima. Por exemplo, g11 = 0.68 e
g12 = -0.27 , para duas casas decimais, etc.
Efetuando-se a multiplicação e inversão constantes na equação, obteríamos as
equações:
F1* = 0 , 176 X 1 + 0 , 127 X 2 + 0 , 147 X 3 +! − 0 , 430 X 9
F2* = − 0 , 082 X 1 + 0 , 402 X 2 + 0 , 176 X 3 +! + 0 , 014 X 9
F3* = − 0 , 122 X 1 − 0 , 203 X 2 − 0 , 025 X 3 + … − 0 , 304 X 9
F4* = 0 , 175 X 1 − 0 , 031X 2 − 0 , 426 X 3 +! + 0 , 088 X 9
26
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
FATORES
1 2 3 4
Finanças e
Agricultura e
Mineração e indústrias de
carência de Carência de
suprimento de serviços e
indústrias de industrialização
energia carência de
serviços
mineração
Bélgica -0,93 -0,04 0,86 -0,08
Dinamarca -1,30 -1,09 0,59 0,44
Franca 0,02 -0,20 0,98 -0,43
Alemanha Oc. -0,04 0,45 0,45 -0,32
Irlanda -0,32 0,37 0,35 0,82
Itália 0,08 -1,40 -0,07 -1,19
Luxemburgo 0,37 0,59 0,18 -1,05
Países Baixos -0,90 -0,59 1,17 -0,24
UK -0,85 1,23 0,95 0,59
Austria 0,06 0,83 0,68 -0,45
Finlândia -0,92 0,47 0,62 0,73
Grécia 0,56 -1,12 -0,56 0,42
Noruega -1,77 -0,67 -0,09 0,31
Portugal 0,40 -1,11 -0,07 -0,17
Espanha 1,67 -0,64 0,93 -1,67
Suécia -1,29 -0,38 0,61 0,67
Suiça 0,68 -0,39 0,98 -1,62
Turquia 1,29 -1,57 -0,85 3,00
Bulgária 0,26 -0,25 -1,39 -0,34
Checoslováquia 0,30 1,18 -1,19 -0,63
Alemanha Or. -0,61 1,70 -1,19 -0,44
Hungria -0,12 2,37 -1,07 0,42
Polônia 0,42 0,26 -1,41 0,06
Romênia 1,55 -0,30 -1,11 -0,67
URSS -0,99 -0,87 -2,06 -0,06
Iugoslávia 2,35 1,17 1,70 1,91
7.2. Exemplo 2
27
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Variáveis*
Parc.
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
1 4,3 4,1 20,1 9,80 11,60 2,00 6 6 5,5 5,5
2 3,9 4,0 17,5 11,20 19,40 1,33 9 9 4,3 3,2
3 3,8 3,9 19,8 6,80 6,80 10,00 7 13 2,7 3,3
4 4,0 5,2 21,6 9,00 9,80 25,00 9 12 6,2 6,2
5 3,8 4,0 10,7 3,80 5,40 4,44 5 15 1,4 1,4
6 3,8 4,2 6,6 2,80 4,80 10,00 16 12 1,0 1,5
7 4,0 4,2 18,6 9,40 10,40 15,00 7 9 3,8 5,2
8 3,8 4,0 6,1 3,80 4,40 15,00 9 18 2,8 25,0
9 4,0 4,0 11,4 9,80 9,80 6,67 27 8 2,3 2,2
10 4,5 4,0 16,3 18,00 18,00 2,00 77 20 2,6 2,6
11 3,7 3,9 17,0 10,40 11,40 0,01 6 8 4,1 10,2
12 4,0 3,9 16,3 13,00 13,00 17,50 30 18 3,8 7,8
Continua...
28
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Quadro 9, Cont.
Variáveis*
Parc.
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
13 4,2 4,0 24,2 28,20 27,80 6,67 9 5 7,4 5,2
14 3,8 3,9 19,8 21,00 20,20 2,50 21 9 4,9 4,7
15 4,0 4,2 18,6 17,50 10,10 3,33 6 9 5,4 5,7
16 4,0 4,2 6,6 2,60 3,30 5,00 10 12 2,7 1,8
17 3,8 4,0 12,0 6,40 7,90 5,00 16 5 3,2 4,8
18 4,0 4,3 13,7 4,00 5,20 10,00 8 8 11,0 7,0
19 6,7 6,0 14,7 6,60 9,80 60,00 88 67 4,2 9,3
20 3,7 3,9 19,1 21,60 22,70 3,33 4 18 19,0 8,2
21 3,7 3,8 11,8 4,90 4,10 2,50 7 9 2,4 1,6
* V1 = pH KCl horiz.A; V2 = pH KCl horiz.B; V3 = Al2O3 total horiz.A; V4 = Fe2O3 total horiz.A; V5 =
Fe2O3 total horiz.B; V6 = Mg/K trocáveis horiz.B; V7 = saturação de bases horiz. A; V8 = saturação de bases
horiz.B; V9 = argila/silte horiz.A; V10 = argila/silte horiz.B.
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
V1 1,00000
V2 0,82020 1,00000
V3 0,06980 0,06033 1,00000
V4 -0,01637 -0,20272 0,72569 1,00000
V5 0,05063 -0,14588 0,70816 0,92705 1,00000
V6 0,83291 0,89914 -0,01912 -0,22396 -0,16482 1,00000
V7 0,80509 0,53532 -0,04946 0,08025 0,12672 0,59442 1,00000
V8 0,89243 0,76280 -0,10896 -0,12760 -0,05588 0,86571 0,77032 1,00000
V9 -0,05391 0,01495 0,42672 0,47071 0,48363 -0,05085 -0,19875 -0,00891 1,00000
V10 0,09076 0,12015 -0,13210 -0,04682 -0,05767 0,28618 -0,00715 0,24326 0,17153 1,00000
29
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Variáveis Comunal.* Fator Autovalor Var. Expl. (%) Var. Acum. (%)
V1 0,90357 1 4,21030 42,1 42,1
V2 0,87504 2 2,89058 28,9 71,0
V3 0,70916 3 1,19116 11,9 82,9
V4 0,88693 4 0,74910 7,5 90,4
V5 0,87344 5 0,49495 4,9 95,4
V6 0,91351 6 0,14695 1,5 96,8
V7 0,79563 7 0,11797 1,2 98,0
V8 0,90775 8 0,08866 0,9 98,9
V9 0,50310 9 0,06701 0,7 99,6
V10 0,32338 10 0,04333 0,4 100,0
* Comunalidades iniciais estimadas por R2 e usadas nos Métodos da Máxima Verossimilhança e do Fator
Principal.
No modelo inicial completo com 10 fatores (Quadro 11), somente os três primeiros
fatores apresentaram autovalores maiores do que um. Esses três fatores explicaram,
individualmente, 42,1; 28,9 e 11,9% da variância, acumulando 82,9% da variação total.
Diante disso, optou-se por prosseguir a análise considerando apenas os três primeiros fatores
comuns. As estruturas fatoriais iniciais ficaram compostas pelas matrizes apresentadas no
Quadro 12, considerando os três métodos de estimação.
As comunalidades iniciais foram consideradas iguais a um, quando do uso do Método
do Componente Principal, ou foram estimadas pelos quadrados dos coeficientes de correlação
múltipla (R2) de equações de regressão entre a variável considerada e todas as demais
variáveis (Quadro 11).
Com apenas três fatores, o Método do Componente Principal mostrou o melhor ajuste,
explicando 82,9% da variância e apresentando comunalidades finais que oscilaram entre 0,68
e 0,94 (Quadro 13).
Os Métodos da Máxima Verossimilhança e do Fator Principal explicaram 75% da
variância total. As comunalidades foram baixas para algumas variáveis, ou seja, pelo Método
da Máxima Verossimilhança elas variaram entre 0,08 e 0,95 e pelo Método do Fator Principal,
entre 0,11 e 0,96. Nesse caso, para ambos os métodos, as variáveis V9 e V10 (argila/silte
horiz. A e B, respectivamente) apresentaram pouca contribuição no modelo fatorial ajustado,
principalmente V10 (Quadro 13).7-10 (13)
A estatística Qui-Quadrado ( χ 2 ), calculada para o modelo com três fatores ajustado
pelo Método da Máxima Verossimilhança, com 18 graus de liberdade, atingiu o valor de
12,85 (P=0,8006), indicando uma boa estimativa da matriz R.
As matrizes de correlação estimadas por cada um dos três métodos, com os respectivos
resíduos em relação à matriz de correlações original R (Quadro 10), são apresentadas no
Quadro 14. Nesse caso, as melhores estimativas de R foram obtidas pelos Métodos da
Máxima Verossimilhança e do Fator Principal. Para o Método da Máxima Verossimilhança,
obteve-se 1,16732 de soma de resíduos absolutos (média = 0,02594), sendo que 20% deles
foram maiores do que 0,05. Pelo Método do Fator Principal, obteve-se 1,3764 de soma de
resíduos absolutos (média = 0,03058), sendo 17% deles maiores do que 0,05.
30
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Quadro 12 – Cargas iniciais dos três primeiros fatores extraídos pelos três métodos de
estimação
31
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
32
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Quadro 14 – Matrizes de correlação estimadas e resíduos obtidos por cada um dos três
métodos de estimação*
33
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Quadro 15 – Estruturas fatoriais após a rotação ortogonal Varimax dos eixos coordenados
34
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Quadro 16 – Matriz de coeficientes dos escores dos fatores rotacionados, extraídos pelo
Método do Componente Principal
35
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Quadro 17 – Matriz de escores dos fatores, extraídos pelo Método do Componente Principal
De posse dos escores dos fatores, e a título de ilustrar como poderia ser feito um
posterior estudo baseado nos novos fatores, procedeu-se o ajuste de uma regressão linear
múltipla, considerando os três fatores como as variáveis independentes (Quadro 17) e o índice
de Sítio (Quadro 8) como a variável dependente do modelo (Quadro 18). Nesse caso, tem-se
a certeza absoluta de que o modelo linear ajustado não apresenta problemas de
multicolinearidade, o que certamente não ocorreria, caso fossem utilizadas as variáveis
originais, devido às altas correlações entre algumas delas (Quadro 10).
A equação final ajustada, considerando o nível de 5% de significância, foi a seguinte:
R2 = 56,62%
36
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Quadro 18 - Ajuste de modelo linear múltiplo pelo método Stepwise conforme saída das
análises do SPSS
Equação Número 1 - Variável Incluída no Passo Número 1. FATOR 1 REGR FATOR ESCORE 1
R Múltiplo .45099
R2 .20339
R2 Ajustado .16146
Erro Padrão (SE) 3.59238
F = 4.85106 Signif. F = .0402
---------------------- Variável na Equação ---------------------- -------------- Variáveis não incluídas na Equação --------------
Variável B SE B Beta F Sig F Variável Beta In Parcial Min F Sig F
Toler
FATOR 1 1.769236 .803281 .45098 4.851 .0402 FATOR 2 .408695 .457906 1.000000 4.776 .0423
7
(Constante) 15.67142 .783922 399.642 .0000 FATOR 3 .442452 .495728 1.000000 5.865 .0262
9
*****************************
Equação número 2 - Variáveis Incluídas no Passo Número 2. FATOR 3 REGR FATOR ESCORE 3
R Múltiplo .63179
R2 .39915
R2 Ajustado .33239
Erro Padrão (SE) 3.20540
F = 5.97887 Signif. F = .0102
------------------ Variáveis na Equação ------------------------ ------------- Variável não incluída na Equação -------------
Variável B SE B Beta F Sig F Variável Beta In Parcial Min F Sig F
Toler
FATOR 1 1.769236 .716748 .450987 6.093 .0238 FATOR 2 .408695 .527251 1.000000 6.546 .0204
FATOR 3 1.735753 .716748 .442452 5.865 .0262
(Constante) 15.67142 .699475 501.964 .0000
9
*****************************
Equação número 3 - Variável Incluída no Passo Número 3. FATOR 2 REGR FATOR ESCORE 2
R Múltiplo .75245
R2 .56619
2
R Ajustado .48963
Erro Padrão (SE) 2.80262
F = 7.39575 Signif.F = .0022
------------------ Variáveis na Equação -----------------------
Variável B SE B Beta F Sig F
FATOR 1.769236 .626685 .450987 7.970 .0117
1
FATOR 1.735753 .626685 .442452 7.671 .0131
3
FATOR 1.603322 .626685 .408695 6.546 .0204
2
(Constan 15.671429 .611581 656.612 .0000
te)
37
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
1/ Essa seção será baseado na exposição apresentada por MENEZES et al, (1978).
38
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
mação a uma distribuição normal, pode ser a solução adequada (logaritmo, raiz quadrada,
etc.).
Comrey (1973), citado por MENEZES et al (1978) chama a atenção para numerosas
outras fontes de erros na análise fatorial, como o uso de variáveis não independentes; por
exemplo:
a) utilizar uma variável que represente uma resposta em um item e outra alternativa em
outro item, quer dizer, duas variáveis dizendo a mesma coisa, diferente apenas pela
natureza da resposta (por exemplo, porcentagem da população rural e urbana, se
uma das duas não estiver relacionada a outro conjunto de variáveis );
b) utilizar uma variável que seja uma combinação linear de outras duas, tais como,
crescimento demográfico entre 1950/70 e 1960/70 e 1950/60, já que pode ter uma
correlação forçada da primeira com qualquer das duas outras ou com as duas.
Outra fonte de erros pode ser o de ter fatores pouco representativos, no sentido de ter
um número de variáveis pouco superior ao número de fatores hipotetizados. O número de
variáveis deve ser de quatro a cinco vezes superior ao número de fatores hipotetizados, pois
do contrário, ele pode estar sendo apenas uma construção matemática.
Comrey (1973), citado por MENEZES et al (1978), assinala ainda que o uso de
variáveis complexas, embora possa ajudar a interpretação, se utilizado em excesso, torna
impossível a interpretação dos resultados. Se variáveis complexas são usadas, pode-se correr
o risco de interpretação de um fator com significação múltipla. Se, por exemplo, utilizamos
uma variável que descreva um fator A e B, ao mesmo tempo, é indispensável que no conjunto
da análise haja variáveis que descrevem A sem descrever B, ao mesmo tempo que outras
descrevem B sem descrever A, de maneira que se tenham os dois fatores A e B puros,
descritos por um número adequado de variáveis, e assim, com a possível interseção de um
com outro, por via de variáveis complexas
A não indicação do que se poderia chamar variável pura (em contraposição a uma
variável complexa), que descreva bem um fator, pode fazê-lo surgir de qualquer maneira (a
variância existente será forçada a aparecer em algum fator) sem explicação adequada e
produzir falsas interpretações
Um outro ponto importante, que afeta os resultados, é a representatividade da amostra.
O primeiro cuidado é ter-se uma amostra (de alguma forma um número de observações)
suficientemente grande para que as correlações sejam estáveis. Uma fonte de perturbação
pode ser a combinação de dois grupos de lugares (ou unidades experimentais) de natureza
essencialmente diferentes, que tenham estruturas fatoriais diferentes, em uma só análise.
Nesse caso, deve-se proceder análises separadas de cada grupo, para se obter a estrutura
parcial, e posteriormente, obter a análise global e uma estrutura global (Comrey, 1973, citado
por MENEZES et al, 1978).
39
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
a) Este fator, provavelmente, só tem uma variável altamente correlacionada e por isto
só representa a variável, e parte dela, apenas. A soma de quadrados de correlação
de numerosas variáveis não relacionadas com fator (correlações entre 0,2 e 0,3),
podem fazer o autovalor atingir valores relativamente altos. Nesse caso, o fator,
será constituído, talvez, pela soma de termos únicos e de erros (cuja distribuição
pelos vários fatores é, por definição, aleatória) e portanto, não possível de ser
interpretada.
40
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
Pelo critério anterior, o número de fatores comuns retidos no modelo pode ser
incrementado, até que uma proporção adequada da variância amostral total tenha sido
obtida.
41
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
COOLEY, W. W. & LOHNES, P. R. Multivariate data analysis. New York, John Wiley &
Sons, Inc. 1971. 364 p.
HARMAN, H. H. Modern factor analysis. Chicago, Tha University of Chicago Press, 1968.
474 p.
HOOGH, R.J. & DIETRICH, A.B. Avaliação de sítio para Araucaria angustifolia (Bert) o.
ktze em povoamentos artificiais. Brasil Florestal, 10 (37):19-71, 1979.
KARSON, M.J. Multivariate statistical methods. Ames, Iowa, The Iowa State University
Press, 1982. 307 p.
KIM, J.O. Factor analysis. In: NIEH, H.; HULL, C.H. ; JENKINS, J.C.; STENBRENNER,
K.; BENJ, D.H. (eds.). Statistical package for social sciences. New York. Megal Hill,
1975. v 5. p 468-514.
42
MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza
MANLY, B. F. J. Multivariate statistical methods. New York, Chapman and Hall, 1986.
159 p.
43