Вы находитесь на странице: 1из 120

ANLISE ESTATSTICA DE

DADOS GEOLGICOS
MULTIVARIADOS





PAULO M. BARBOSA LANDIM
Professor Emrito da Universidade Estadual Paulista
Professor Voluntrio do Depto. Geologia Aplicada
UNESP/Rio Claro








UNESP/campus de Rio Claro
Departamento de Geologia Aplicada - IGCE
Laboratrio de Geomatemtica
Texto Didtico 03
2000
2





Reproduo autorizada desde que citada a fonte
Norma 6023-2000/ABNT ( http://www.abnt.org.br):
LANDIM, P.M.B. Anlise estatstica de dados geolgicos multivariados.. Lab.
Geomatemtica, DGA,IGCE,UNESP/Rio Claro, Texto Didtico 03, 128 pp.
2000. Disponvel em <http://www.rc.unesp.br/igce/aplicada/textodi.html>.
Acesso em:....


NOTA:
Dvidas, questes, sugestes, etc. sobre o texto devero ser encaminhadas
para o endereo plandim@rc.unesp.br, as quais sero sempre bem recebidas.



3


1. INTRODUO

As primeiras aplicaes de mtodos quantitativos em Geologia coincide com o seu
estabelecimento como cincia moderna, pois a subdiviso do Tercirio, por Lyell em 1830, foi
baseada na classificao quantitativa de espcies recentes de moluscos presentes nos
diversos estratos da Bacia de Paris. A partir desse incio, porem, a Geologia permanece
qualitativa e puramente descritiva e apenas nos anos 20 que o enfoque quantitativo se
estabelece. Por exemplo, Krumbein, pioneiro em 1958 no uso de computao em Geologia,
prope a amostragem geolgica em bases probabilsticas e introduz os modelos processo-
resposta. Graas a avanos tecnolgicos, tanto em termos computacionais como em
equipamentos de laboratrio e de campo mais refinados, tem sido intensa, nas ltimas ultimas
dcadas, a obteno de dados geolgicos quantitativos. A sua anlise, porem, esta muito
aquem dessa imensa quantidade de informaes coletadas. Basta ver os relatrios de
pesquisa e mesmo os bancos de dados com um grande nmero de matrizes de informaes
no trabalhadas. Ha verbas e tempo gastos com essa coleta que precisam ser acompanhados
do devido manuseio. Para essa anlise dos dados o emprego de tcnicas estatsticas
multidimensionais torna-se, ento, uma ferramenta fundamental. Constitue uma fase
intermediaria, as vezes at introdutria, porem necessria, para o entendimento dos
fenomenos geolgicos. A pura utilizao de tcnicas estatsticas, e hoje em dia bastante
facilitada graas vasta disposio de programas, no condio suficiente se o estudo no
for embasado num slido conhecimento geolgico. A sua aplicao, porem, de extrema valia
metodolgica para auxiliar a interpretao geolgica.
No caso de uma nica varivel ter sido medida em espcimes de uma amostra, no
sentido estatstico, a anlise de tais dados feita por intermdio da estatstica univariada. Se
porm valores de diversas variveis forem obtidos em cada um dos espcimes dessa mesma
amostra, as tcnicas para a anlise desses dados so fornecidas pela estatstica multivariada
ou multidimensional. Tal anlise estatstica de mensuraes mltiplas efetuadas sobre uma
amostra fornece um melhor entendimento na razo direta do nmero de variveis utilizadas e
permite considerar simultaneamente a variabilidade existente nas diversas propriedades
medidas.
Pode-se afirmar que a anlise multivariada a rea da anlise estatstica que se
preocupa com as relaes entre variveis e como tal apresenta duas caractersticas principais:
os valores das diferentes variveis devem ser obtidos sobre os mesmos indivduos e as
mesmas devem ser interdependentes e consideradas simultaneamente (Kendal, 1963). Entre
os mtodos mais utilizados em Geocincias destacam-se a anlise de agrupamentos , a
anlise fatorial e a anlise discriminante.
A anlise de agrupamentos utilizada quando se deseja explorar as similaridades
entre indivduos (modo Q) ou entre variveis (modo R) definindo-os em grupos, considerando
simultaneamente, no primeiro caso, todas as variveis observadas em cada indivduo e, no
segundo, todos os indivduos nos quais foram feitas as mesmas medidas. Segundo esse
4
mtodo, procura-se por agrupamentos homogneos de itens representados por pontos num
espao n-dimensional em um nmero conveniente de grupos relacionando-os atravs de
coeficientes de similaridade ou de distncia.
A anlise fatorial procura interpretar a estrutura de um conjunto de dados multivariados,
tanto em modo Q como em modo R, a partir da respectiva matriz de varincias-covarincias
ou de

correlaes, com a obteno de autovalores e autovetores. Utiliza-se de dois procedimentos
bsicos: a "anlise das componentes principais" e a "anlise dos fatores". O primeiro caso
consiste numa transformao linear das "m" variveis originais em "m" novas variveis. No
segundo, supe-se que as relaes existentes dentro de um conjunto de "m" variveis seja o
reflexo das correlaes de cada uma dessas variveis com "p" fatores, mutuamente no
correlacionveis entre si, sendo "p" menor que "m".
A anlise discriminante aplicada quando em relao a um indivduo, sobre o qual
tenham sido feitas diversas medidas, necessrio decidir qual de dois ou mais possveis
grupos, o mesmo pertence. A idia bsica substituir o conjunto original das diversas
mensuraes por um nico valor D
i
, definido como uma combinao linear delas. Para fornecer
um nico valor os termos so adicionados nessa funo linear, e esta transformao
realizada de tal modo a fornecer a razo mnima entre a diferena entre pares de mdias
multivariadas e a varincia multivariada dentro dos dois grupos. Conhecido os D
i
's, estes sero
comparados com um certo D
o
, ou seja, o valor situado, ao longo da linha expressa pela
funo discriminante, a meio caminho
entre os centros dos grupos, com a finalidade de verificar a qual deles os indivduos pertencem.
Como salientado por Davis (1986), os mtodos multivariados so poderosos,
permitindo o pesquisador manipular diversas variveis simultaneamente. So, porm, bastante
complexos, tanto na sua estrutura terica como na metodologia operacional. Em alguns casos
os testes estatsticos a serem utilizados exigem requisitos muito rgidos e em outros, muitas
vezes quando quer relacion-los com problemas reais, no apresentam base estatstica terica
e desse modo impossibilidade de testes de significncia. De qualquer modo, so mtodos
extremamente promissores para a anlise de dados geolgicos tendo em vista que
normalmente a maioria das situaes geolgicas envolvem um conjunto complexo de fatores
atuando no sistema, sendo impossvel isol-los e estud-los isoladamente.
Exemplos de situaes que apresentam dados multivariados so comuns em Geologia,
como: anlises geoqumicas de elementos maiores e/ou elementos traos; caracteres
morfolgicos medidos em fsseis; caractersticas fsicas de rochas sedimentares, como
distribuio granulomtrica, porosidade, permeabilidade; contedo mineralgico em rochas;
variveis fluviais, como descarga, material em suspenso, profundidade, slido dissolvidos, pH
e contedo em oxignio, etc.. Em alguns casos trata-se de simples extenso de problemas
ligados estatstica univariada e outros pertencem, porm, a uma nova classe de problemas.
5
As principais questes a serem enfrentadas por esse tipo de anlise so as seguintes, segundo
Pisani (1969):
1. problemas de dependncia, quando so utilizados, por exemplo, anlise de regresso
mltipla e correlao cannica;
2. problemas de inferncia, quando so utilizados extenses multivariadas de mtodos
estatsticos univariados, como o teste T de Hotelling ou a anlise generalizada de varincia;
3. problemas de reduo e escala, quando so utilizados anlise das componentes principais,
anlise dos fatores, distncia generalizada D de Mahalanobis, etc.;
4. problemas de discriminao e classificao, quando so utilizados funes discriminantes e
as diversas tcnicas de anlise de agrupamentos.

A utilidade dos mtodos multivariados pode ser apresentada em termos geomtricos.
Assim, observaes univariadas podem ser assinaladas sobre uma linha reta e se essa linha
for dividida em intervalos de classes e contando o nmero de observaes em cada intervalo,
um histograma poder ser construdo. Esse histograma ir requerer duas dimenses para a
sua representao. Observaes bivariadas podem ser assinaladas em um sistema de
disperso a duas dimenses. Se o diagrama for dividido em celas, o nmero de observaes
em cada cela pode ser contado e o respectivo histograma construdo. Esse histograma requer
trs dimenses e pode ser representado por um mapa de isovalores. Observaes trivariadas
podem ser assinalados em um grfico de disperso a trs dimenses e a configurao nos
pontos no espao definir uma elipside. Se o espao tri-dimensional for dividido em cubos os
nmeros de observaes dentro de cada figura geomtrica podero ser contados e obtida a
distribuio de freqncias. Para a construo do respectivo histograma quatro dimenses
sero necessrias. Em observaes com quatro ou mais variveis no possvel a
representao grfica segundo os mtodos comuns, embora Mertie (1949) tenha proposto
para tanto complicados hipertetraedros.
Utilizando, assim, a interpretao geomtrica em trs dimenses para observaes
trivariadas, os seguintes exemplos de procedimentos em estatstica multidimensional podem
ser apresentados:
a) na regresso mltipla calcula-se um plano para uma regresso linear, ou superfcies curvas
para regresses de ordem maior, que so ajustados s observaes a fim de minimizar a
soma das distncias ao quadrado dos pontos no espao medidos perpendicularmente em
relao a essas superfcies;.
b) na anlise de varincia generalizada verificado se dois ou mais elipsides tem o mesmo
centro;
c) na anlise discriminante localiza-se os centros dos elipsides e calcula-se a distncia entre
pares de centros de elipsides;
6
d) na anlise fatorial verificado se as observaes multivariadas ocupam um nmero de
dimenses igual ao nmero de variveis medidas inicialmente ou se podem estar contidas
em um nmero menor de dimenses; para tanto os eixos do elipside podem ser
rotados de tal modo a colocar o centro do elipside coincidente com o centro do sistema de
coordenadas.

Entre os principais livros textos que tratam desse assunto podem ser citados: Miller &
Kahn (1962), Sokal & Sneath (1963) Krumbein & Graybill (1965), Harbaugh & Merriam
(1968), Koch & Link (1971), Davis (1973 e 1986), Joreskog, Klovan & Reyment (1976) , Le
Maitre (1982) e Howarth e Siding-Larsen (1983), Griffith & Amrhein (1997), Reyment &
Savazzi (1999).
Existem tambem diversos pacotes estatsticos de aplicao geral, bem elaborados e
completos, como SAS, S-Plus, Statistica, Systat, todos em constantes atualizaes. Um
outro, no to conhecido, mas bastante fcil de ser usado e com boa saida grfica, o MVSP.
Um pacote dedicado a anlise de dados geolgicos o Geoquant.



Alem disso na revista Computers & Geosciences, editada pelo International
Association for Mathematical Geology, frequentemente so apresentados programas listados
e/ou executaveis obtidos por ftp (www.iamg.org/CGEditor/index.htm).



BIBLIOGRAFIA
DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology:John Wiley and Sons, Inc.
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2th ed., John Wiley and Sons, Inc.
GEOQUANT (1990) Companhia de Pesquisa de Recursos Minerais, verso 3.0
HARBAUGH, J.W. & MERRIAM, D.F. (1968) - Computer applications in Stratigraphic Analysis:
John Wiley & Sons, Inc.
HOWARTH, R.J. & SINDING-LARSEN, R. - Multivariate analysis - in: Statistics and Data
Analysis in Geochemical Prospecting, vol. 2, Elsevier, P.207-289.
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis:
Elsevier.
KENDALL, M.G. (1963) - Discrimination and Classification: C.E.I.R. Ltda.
KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data: vol. 2, John Wiley &
Sons., Inc.
7
KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduciton to Statistical Model in Geology:
McGraw Hill Book, Co.
LE MAITRE, R.W. (1982) - Numerical Petrology. Statistical Interpretation of Geochemical Data:
Elsevier.
MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedra of
hypertetrahedra: Am. Mineralogist, 34:706-716.
MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John Wiley
and Sons.
MVSP Plus (1998) Kovach Computing Services, verso 3.0
PISANI, J.F. (1969) - Anlise estatstica multidimensional em Biologia: Cincia e Cultura,
21(3):619-631.
SAS SAS Institute, Inc.
SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numerical taxonomy: W.H. Freeman and
Co.
S-PLUS (1997) Mathsoft, verso 4.0
STATISTICA for Windows (2000) StatSoft Inc.,, verso 5.5
SYSTAT for Windows (1997) SPSS Inc., verso 7.0


8

2. EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS
Entre os mtodos da estatstica descritiva univariada dois testes se
destacam: o teste t e a anlise de varincia. O primeiro procura verificar
hipteses referentes mdia populacional e o segundo de aplicao bem mais
ampla, procura dividir a variao total existente num conjunto de dados de
acordo com as diversas fontes de variao presentes. Tais mtodos so casos
particulares daqueles pertencentes estatstica multidimensional. Entre eles
podem ser exemplificados o teste T
2
de Hotteling e a anlise generalizada
de varincias. No tem grande utilidade em problemas geolgicos, existindo
outros mtodos mais eficientes, mas so aqui apresentados apenas com o
intuto de demonstrar as relaes entre testes univariados, comumente usados,
e testes multivariados.

2.1. Teste T de Hotteling
2.1.1.Verificar se uma amostra multidimensional pertence a uma determinada
populao multidimensional.
Seja, por exemplo, um conjunto de observaes nas quais foram obtidas
independentemente as medidas X e Y e se deseja saber se x e y so
significativamente diferentes de um par de valores populacionais hipotticos
x

e
y
. Se apenas a varivel X for enfocada o teste recomendado o "t" de
Student, que verifica a probabilidade de uma amostra casual com n
observaes ser retirada de uma populao normal com mdia especificada

x
e varincia desconhecida
2
:
t
x n
s
x
x
=
( )
2

onde s a varincia da amostra de tamanho n de onde x foi obtida. Se t t
(n -
1,)
, x ser considerado significantemente diferente de
x
ao nvel .
Escolhido, por exemplo, = 0,05 isso significa que se a verdadeira
mdia da populao de X's for igual a
x
a chance de ocorrer t
n
>
( , ) 1
uma
em 20. Aplicando o mesmo teste para a varivel Y, com o mesmo risco de
estar recusando a hiptese nula quando ela verdadeira, a probabilidade de
ambas X e Y no serem significantemente diferentes de
x
e
y
(0,95) =
9
0,9025. A probabilidade de ambas as mdias serem significantemente
diferentes de
x
e
y
(0,05) = 0,0025. A probabilidade de apenas uma das
mdias ser significantemente diferente (2) (0,95) (0,05) = 0,0950. Assim a
probabilidade de apenas uma das mdias ser significativamente diferente (2)
(0,95) (0,05) = 0,9050. Assim a probabilidade de que pelo menos uma mdia
ser considerada como significativamente diferente, quando na realidade no
existe diferena, 0,0975. No caso de um problema a trs variveis, esta
ltima probabilidade passa a ser 1-(0,95) = 0,1426.
Esta situao, apresentada por Jackson (1959), mostra que o uso de
testes univariados para situaes multivariadas pode fornecer pelo menos uma
diferena significante, apenas por chance, em 50% ou mais de casos. H
necessidade, portanto, de um teste generalizado que verifique
simultaneamente se dadas diversas amostras, qual a possibilidade delas serem
significantemente diferentes de mdias hipotticas correspondentes
fornecidas.

Para a generalizao multivariada do teste "t", na situao apresentada,
substitui-se X por um menor vetor de mdias amostrais,
x
por um vetor de
mdias populacionais e s por uma matriz de varincias-covarincias.


| | | |
| |
| |
| |
t
x n
s
x n
s
x x
=

=

2 2

A soluo desta equao no fornece uma nica resposta e para tanto
haver necessidade de transformar inicialmente a coluna vetor
| |
x
x
e a
matriz
| |
s
2
em valores singulares.
Isso pode ser conseguido se definido um vetor coluna arbitrrio
| |
A cujo
transposto o vetor linha
| |
A
l
. Multiplicando o vetor coluna de diferenas pelo
vetor linha
| |
A
l
o resultado ser um valor singular. A multiplicao de
| |
s
2
por
| |
A e em seguida o resultado por
| |
A
l
tambm fornece um nico resultado.
Desse modo o teste torna-se

10

| |
| |
| |
| |
| |
t
A x n
A s A
x
=
'
'

2



| |
| | ( )
| |
| |
| |
t
A x n
A s A
X
2
2
2
=
'
'



Todavia, com essa transformao, o que estava sendo testado foi
modificado. A hiptese nula que era

| | | |
H
o x o
= = , passa a ser
| || | | || |
H A A
o x o
'
, = =
A hiptese original H
o
ser verdadeira somente se a nova hiptese H
o
'
se
mantiver para todos os possveis valores de
| |
A . suficiente, porm, testar
apenas o valor mximo possvel do teste, porque se H
o
'
for rejeitado para
qualquer valor de
| |
A , a hiptese H
o
ser tambm rejeitada.
Para determinar esse valor mximo deve-se essencialmente notar que t
no tem dimenso e no afetado por mudanas de escala dos elementos de
| |
A . Segundo Morrison (1967), essa determinao pode ser removida pela
imposio de restrio:

| |
| |
| |
A s A
i
2
1 =
A introduo da restrio pelo multiplicador de Lagrange e
subsequente diferenciao com respeito
| |
A fornece o sistema de equaes:


| | | | | |
| |
x x n s A
x x
l

|
\

|
.
| =
2
0
multiplicando por A':

| |
| | | |
| |
| |
| |
| |
| |
| | ( )
| |
| |
| |



=

=

A x x A n
A s A
A x n
A s A
x x
x
' '
'
'
'
2
2
2

o que resulta: = t
2

Para a determinao de t, ou seja o mximo valor possvel, deve-se
encontrar o determinante
11

| |
| || | | |
s x x n I
2
1
0

(
= '

| | | | | |
=

tr s x x n
o o
2
1
'
tr = trao de matriz que igual a soma das razes caractersticas

| |
| |
| |
T n x s x
x x
2 2
1
=

'
Essa expresso conhecida como teste T de Hotteling, em
homenagem ao estatstico que a formulou.
Quando a hiptese nula verdadeira, a quantidade
F
n m
m n
T =

( ) 1
2
, apresenta uma distribuio F com graus de liberdade m e
n - m, onde n o nmero de amostras e m o nmero de
variveis.
Aceita-se H
o o
: , , quando

) , , (
2
.
m n m
F T

<



Exemplo:
Os dados foram retirados do trabalho de Gomes et al. (1975) sobre a
geoqumica de corpos granticos da regio do Ribeira, utilizando-se apenas 40
anlises qumicas obtidas do macio de Itaca, Vale do Ribeira (SP). Cada
uma dessas anlises exibe valores percentuais de de SiO
2
, TiO
2
, Al
2
O
3
,
Fe
2
O
3
, FeO, MnO, MgO, CaO, Na
2
O, K
2
O e P
2
0
5
. O macio de Itaoca,
aflorando ao sul da cidade de Apiai, possui forma irregular, levemente ovalada,
e contatos tanto concordantes como discordantes com a estrutura regional,
achando-se inteiramente encaixado em metassedimentos do Grupo Aungui.
Do ponto de vista textural, as amostras estudadas so porfirides, com
desenvolvimento de cristais centimtricas de feldspato alcalino em meio a uma
matriz fanertica granular de dimenses submilimtrica milimtrica. Sua
mineralogia marcada pela dominncia total dos componentes alcalinos,
quartzo e feldspato aparecendo a biotita como principal composto
ferromagnsiano


12
SiO
2
TiO
2
Al
2
O
3
Fe
2
O
3

FeO MnO MgO CaO Na
2
O K
2
O P
2
0
5

1 67.58 0.58 12.65 0.15 3.62 0.07 1.28 2.14 5.34 4.9 9 0.26
2 72.77 0.20 12.96 0.01 2.30 0.02 0.30 0.77 5.34 4.55 0.07
3 68.64 0.40 13.33 0.65 2.98 0.19 0.77 1.11 5.72 4.70 0.13
4 69.87 0.45 13.36 0.90 2.03 0.08 0.81 0.80 5.72 4.96 0.16
5 71.42 0.39 12.23 0.01 3.06 0.05 0.82 1.53 5.01 3.48 0.16
6 66.02 0.60 13.62 0.97 3.35 0.07 1.10 2.89 5.01 5.00 0.32
7 66.20 0.67 12.99 1.21 3.08 0.10 1.10 2.76 5.34 4.97 0.30
8 72.75 0.22 12.72 0.17 2.53 0.03 0.37 1.13 5.01 4.34 0.05
9 65.80 0.65 13.95 0.33 3.76 0.05 1.08 2.67 5.34 4.96 0.27
10 70.03 0.38 12.83 0.43 3.81 0.08 0.73 1.59 4.04 5.04 0.14
11 69.71 0.50 13.00 0.06 3.18 0.11 0.90 2.14 4.85 4.54 0.16
12 67.45 0.53 13.67 0.37 3.59 0.05 0.95 2.62 4.85 4.63 0.22
13 66.31 0.69 14.23 0.13 3.39 0.07 1.29 3.02 4.85 4.48 0.33
14 65.78 0.67 14.21 0.19 3.49 0.06 1.36 2.87 4.85 5.06 0.28
15 65.84 0.67 12.89 0.75 3.53 0.06 1.43 3.11 4.85 4.81 0.30
16 64.43 0.73 13.97 0.18 4.22 0.07 1.32 3.02 4.85 4.88 0.29
17 69.57 0.40 13.18 0.30 2.67 0.07 1.09 1.71 5.12 4.91 0.17
18 72.33 0.49 14.06 0.62 0.99 0.01 0.18 0.22 4.72 5.22 0.03
19 70.73 0.50 12.77 0.33 2.49 0.09 0.90 1.80 4.45 4.74 0.24
20 64.17 0.87 13.81 0.98 4.11 0.07 1.48 3.26 4.58 4.85 0.32
21 64.57 0.77 13.92 1.33 3.35 0.09 1.46 3.04 4.85 4.51 0.29
22 69.75 0.37 12.83 1.69 2.98 0.04 0.66 1.39 4.58 4.68 0.12
23 65.10 0.67 14.30 0.88 3.71 0.08 1.35 2.83 4.31 4.85 0.31
25 65.29 0.66 14.18 1.09 3.61 0.07 1.11 3.07 4.31 4.85 0.36
26 66.84 0.66 13.40 0.62 3.36 0.07 1.33 2.67 4.58 4.64 0.37
27 66.93 0.78 13.51 0.47 5.45 0.09 1.47 2.71 1.35 5.13 0.31
28 67.33 0.61 13.14 1.15 2.88 0.07 1.39 2.47 4.58 4.87 0.30
29 64.93 0.85 14.20 1.91 3.72 0.06 0.85 2.47 4.31 4.85 0.37
30 66.23 0.62 13.57 1.08 3.49 0.05 1.17 2.86 4.31 4.84 0.29
32 68.33 0.44 12.98 0.77 2.78 0.06 0.95 2.34 4.31 4.77 0.21
33 72.15 0.24 11.96 0.96 1.81 0.08 0.52 5.20 3.24 2.71 0.15
34 66.79 0.60 13.73 1.14 2.63 0.06 1.32 2.72 4.31 5.22 0.29
35 65.78 0.57 14.45 1.91 2.82 0.06 0.91 2.58 4.30 5.10 0.26
36 66.08 0.59 14.15 1.61 3.14 0.06 1.12 2.92 4.31 4.46 0.31
37 64.50 0.79 13.80 1.08 4.03 0.07 1.39 3.17 4.58 4.96 0.32
38 65.87 0.71 13.50 2.01 2.73 0.09 1.49 3.26 4.36 4.39 0.38
39 63.72 0.74 13.91 1.97 3.48 0.08 1.50 3.22 4.30 4.89 0.39
13
40 75.37 0.09 12.13 0.18 2.16 0.01 0.09 0.54 4.04 4.62 0.02
41 67.66 0.63 13.07 0.68 3.62 0.05 1.27 2.56 4.58 4.41 0.29
42 65.72 0.63 13.71 1.23 3.35 0.05 1.01 3.09 4.85 4.64 0.36
52 67.43 0.54 13.54 1.44 2.11 0.06 1.15 2.68 5.12 4.48 0.24
Tabela 2.1. - Composio qumica do macio grantico de Itaca.


A anlise dos dados normativos indica uma composio grantica para o
macio, conquanto a totalidade das amostras esteja colocada prxima ao
campo de transio granito-granodiarito. Comparando qualitativamente os
valores mdios dessas anlises com valores mdios obtidos por Nockolds
(1954) para rochas granticas adamelliticas e granodiorticas mundiais, os
autores citados concluiram por uma composio prxima rochas
adamelliticas, com diferena em relao Na
2
O, ligeiramente superior quela
referida pelo citado Autor.
De um estudo feito por Landim et al. (1974), aplicando anlise de
agrupamentos a essas 40 anlises qumicas, constatou-se a existncia de dois
conjuntos diferenciados: um composto por 13 anlises provenientes
preferencialmente do interior do macio (amostras de nmeros 1, 4, 9, 10, 11,
12, 13, 14, 15, 16, 17, 19, e 32) e outro, com um total de 19 anlises
distribudas pelo restante do corpo (amostras de nmeros 6, 7, 20, 21, 23, 25,
26, 28, 29, 30, 34, 35, 36, 37, 38, 39, 41, 42 e 52). Quanto s amostras de
nmeros 2, 3, 5, 8, 18, 22, 27, 33 e 40 no se encaixam em nenhum desses
dos grupos.
Tendo como hiptese que a populao multidimensional seria os valores
mdios obtidos por Nockolds (1954) para rochas adamelliticas (Tabela 3.2.),
procurou-se aplicar o teste T' para verificar se a amostra multidimensional,
constituda pelo conjunto de 13 anlises, pertenceria a essa populao. De
modo idntico testou-se a amostra composta pelas 19 anlises.

SiO
2
TiO
2

Al
2
O
3

Fe
2
O
3
FeO MnO MgO CaO Na
2
O K
2
O P
2
0
5

69,15 0,56 14,63 1,22 2,27 0,06 0,99 2,45 3,35 4,58 0,20
14
Tabela 2.2. - Composio qumica mdia de adamellitos
(Nockolds,1954).
04 . 61 71 . 4028
) 12 ( 11
11 13
T
) 1 n ( m
m n
F ) a
2
1
= = =
para m = 12 g.l. e ( n - m = 1 )g.l., o valor de F tabelado
91 . 243 = F
12,1) (0.05;

Desse modo como o valor de F
1
calculado menor que o tabelado deve-
se aceitar Ho ao nvel de 95%. Isso significa que essa amostra pode ser
considerada como proveniente de uma populao com composio
adameltica.
67 . 95 01 . 2367 ] 18 * 11 / ) 11 19 [( F ) b
o
= =
5747 . 3 = F
) 7 . 12 ; 05 . 0 (

Como o valor de F
2
calculado maior que o F tabelado, para graus de
liberdade 12 e 17 e nvel de significncia de 0.05, deve-se rejeitar H
o
, o que
significa que essa amostra no pode ser considerada como proveniente de
uma populao com composio adameltica.



2.1.2. Comparar dois vetores de mdias amostrais.
Tendo sido visto o caso de uma nica amostra multidimensional
comparada com um especfico vetor de mdias populacionais, uma outra
situao seria a comparao entre duas mdias
populacionais, multidimensionais. Presume-se que as duas amostras tenham
sido retiradas de populaes multi-normais, possuindo ambas a mesma matriz
desconhecida de varincias-covarincias [
2
].
Deseja-se, portanto, testar a hiptese nula

| | | |
H
o
:
1 2
=
Contra a alternativa

| | | |
H
1 1 2
:
15
Para o caso unidimensional usa-se o teste "t" para duas amostras:
t
x x
sp n n
=

+
1 2
1 1
1 2
/ ) ( / )

onde sp a estimativa dos desvios padres combinados de duas populaes,
baseada em ambas as amostras
Sp
n s n s
n n
2 1 1
2
2 2
2
1 2
1 1
2
=
+
+
( ) ( )

No caso multidimensional, inicialmente computa-se para o clculo da
estimativa combinada
| |
S
p
2
, a matriz de varincias e covarincias de duas
amostras multidimensionais, utilizando a soma de quadrados e produtos
cruzados das m variveis de ambas as amostras.

| |
| | | | ( )
Sp
n n
S S
2
1 2
1 2
1
2
=
+
+
S
SQX SPX X SPX X
SPX X SQX SPX X
SPX X SPX X SQX
m
m
m m m
1
1 1 1 1
1 2 2
2
1
1 2
2
=

(
(
(
(
L
L
M
L


onde
SQX
x
x
n
n
i
n
i
i
n
i
a
a
1
2
1
1
2
1
1
1
2
1
=


|
\

|
.
|
|
\

|
.
|
|
|
|
|


SPX X
x x
x x
n
n
i
n
i i
i
n
i
i
n
i
a
a a
1 2
1
1 2
1
1
1
2
1
1
=


|
\

|
.
|
|
\

|
.
|
|
|
|

=

( . )


Em seguida encontra-se a diferena entre os dois vetores de mdias
| | | | | |
x x x x
1 2 1 2
= .
O teste T para o presente caso ter a forma
16

| |
| |
| |
T
n n
n n
x x Sp x x
2 1 2
1 2
1 2
2
1
1 2
=
+

' .
A significncia de T ser determinada por
F
n n m
n n m
T =
+
+
1 2
1 2
2
1
2 ( )
, com m e ( ) n n m
1 2
1 + graus de liberdade.
Aceita-se H
o
:
1 2
= se


1) m n n ; m ; (
2
2 1
+


F T

Exemplo:
O teste T
2
tambm pode ser aplicado quando se dispe de duas
amostras casuais independentes, retiradas, por suposio, de populaes
normais multivariadas e tendo ambas a mesma matriz desconhecida de
varincias e covarincias, e se deseja testar a igualdade entre seus vetores de
mdia.

| | | |
H
o
:
1 2
=
contra

| | | |
H
1 1 2
:
Para este exemplo foram utilizadas as mesmas duas amostras
provenientes do estudo geoqumico do macio de Itaoca: a primeira,
constituda por 13 anlises qumicas e a segunda, por 19 anlises qumicas.
Em ambas as variveis so as mesmas, ou seja porcentagens de 11 xidos.
91 . 85 = 59 . 1417
11 ) 2 19 + 13 (
1 11 19 + 13
= T
m ) 2 n + n (
1 m n + n
= F
2
2 1
2 1

F tabelado, para um nvel de significncia de 0.05% e graus de
liberdade 12(m) e 19 ( ) n
1
n m
2
1 , igual a 2.27. Desse modo como F
calculado maior que F tabelado rejeita-se a hiptese nula de que os dois
vetores de mdias das duas amostras consideradas sejam iguais. Isso j era
esperado tendo em vista os resultados do exemplo 3.1.1. onde a primeira
amostra revelou ter caractersticas de uma rocha adamellitica e a segunda no.


17
2.2. Anlise generalizada de varincias, para a comparao entre matrizes
de varincias-covarincias.
A igualdade de matrizes de covarincias, pode ser verificada pelo teste
generalizado de varincias, que o equivalente multivariado do teste F. Tendo
"k" grupos de observaes e sendo medidas "m" variveis em cada espcime,
matrizes de varincias-covarincias
| |
s
i
2
podem ser obtidas.
Sendo as respectivas matrizes de varincias-covarincias populacional

i
2
deseja-se testar a hiptese nula

| | | | | |
H
o i k
:
2
2
2 2
= = = L
Contra a hiptese alternativa

| | | |
H
i k 1
2 2
:
A hiptese nula estabelece que as "k" matrizes de covarincias
populacionais so as mesmas, contra a alternativa de que pelo menos duas
so diferentes. Cada matriz amostral
| |
s
i
2
uma estimativa da matriz
populacional
i
2
. Se as populaes a que pertencem os "k" grupos so
idnticas, as estimativas amostrais podem ser combinadas para formar uma
estimativa combinada da matriz de covarincia populacional.

| |
| |
sp
n s
n k
i
k
i i
i
k
i
2
1
2
1
1
=


=
=
( )
( )

onde n
i
o nmero de espcimes no i'simo grupo e n
i
o nmero total
geral de todos os espcimes em todos os grupos.
Para a estimao combinada da matriz populacional de covarincias, o
teste estatstico M o computado
( )
| | | |
( )
| | | |
M sp n s
n
k
i n i
=
|
\

|
.
|
n - k
i
l l
2 2
1
Este teste baseia-se na diferena entre o logaritmo do determinante da
matriz combinada de covarincias e a mdia dos logaritmos dos determinantes
das matrizes amostrais de covarincias. Se todas as matrizes amostrais forem
a mesma, essa diferena ser bem pequena. Caso as varincias e
covarincias dos grupos forem muito diferentes entre si o valor de M
18
aumentar. Como tabelas de valores crticos de M no so facilmente
encontradas, utiliza-se a transformao:
C
m m
m k n
n k
i
i
i
k
i

=
=
=
+
+

|
\

|
.
|

|
\

|
.
|
|
|
1
2
1
1
1
2 3 1
6 1 1
1
1
1
( )( )

que converte M numa distribuio prxima a do

2 1
=

MC
Este valor aproximado de tem graus de liberdade = ( 1 / 2 )( k - 1 )m(
m + 1 ).

Se todos os grupos possuem o mesmo nmero de observaes n, a
transformao simplificada para

( ) ( )
( ) ( )
C
m m k
m k n

=
+ +
+
1
2
1
2 3 1 1
6 1 1

O valor deve ser usado apenas quando k e m no excedem 5 e cada
matriz estimada de covarincias baseada em pelo menos 20 observaes.

Exemplo:
Para a aplicao do teste anterior, uma das suposies era a de que as
amostras tivessem sido retiradas de populaes com a mesma matriz de
varincias e covarincias. Tal igualdade de matrizes de varincias e
covarincias pode ser verificadas pela aplicao do teste das varincias
generalizadas, que o teste multivariado equivalente ao teste F.
Usando as mesmas amostras do teste anterior o resultado passa a ser:
Teste M = 180.874847 ; Transformao C
-1
= 0.437108
Critrio de Anderson corrigido: 101.812957%
19
Como esta estatstica tem distribuio prxima a do chi-quadrado, com
78 graus de liberdade, comparou-se o valor calculado com valores crticos de
uma tabela de .
Para altos valores de graus de liberdade a seguinte frmula aproximada
para o clculo de pode ser usada

( )


2 2
9
2
9
3
1 = + n z
n n

( )
( )

( , ) *
. / * ,
0 01
2 2
9 78
3
78 1 2 326 2 9 78 109 92 = + =

( )

0 01 78
2
109 97
. :
, =
Como o valor crtico, para um nvel de significncia 0.01, maior que o
calculado, aceita-se a hiptese nula, ou seja, ambas as amostras provm de
populaes com a mesma matriz de varincias e covarincias.

20
BIBLIOGRAFIA
GOMES, C.B; BERENHOLC, M.; HYPLITO, R. & ARRUDA, J.R. (1975) -
Geoqumica de macios granticos da Regio do Ribeira, Parte 1: elementos
principais: An. Acad. Bra.s Cinc., 47:113-130.
JACKSON, J.E. (1959) - Some multivariate statistical tecniques used in color matching
data: Jour. Opt. Soc. America, 49:485-592.
LANDIM, P.M.B.; GOMES, C.B.; ARRUDA, J.R. & FULFARO, V.J. (1979) - Anlise de
agrupamentos (cluster analysis) aplicada ao estudo geoqumico do granito Itaca,
regio da Ribeira: An. XXVIII Congr. Bras. Geologia, 7:161-168.
MORRISON, D.F. (1967) - Multivariate statistical methods: McGraw-Hill, Inc.
NOCKOLDS, S.R. (1954) - Average chemical compositon of some igneous rocks:
Geol. Soc. Am. Bull., 65:1007-1032.




21


3. REGRESSO MLTIPLA

As relaes entre duas variveis "X", considerada independente, e "Y",
considerada dependente, pode ser representada num diagrama de disperso,
com os valores y
i
em ordenada e os x
i
em abcissa. Cada par de valores x
i
e y
i

fornecer um ponto e utilizando-se, por exemplo, o mtodo dos desvios
mnimos ao quadrado, pode-se calcular a equao de uma curva de tendncia
que melhor se ajuste nuvem de distribuio. O mtodo mais simples que
pode ser adotado o da anlise de regresso linear simples que fornece a
equao de uma reta:
y
i
x
i i
= + + , onde e so constantes desconhecidas a serem
determinadas e
i
representa toda a fonte de variabilidade em Y no explicada
por X. Operacionalmente neste caso encontra-se a equao da reta para a
previso dos valores y
i
:
y a bx = + , onde a e b so os coeficientes que determinam a interseco
e a inclinao da linha de tendncia.
No raro, porm, que o termo
i
seja numericamente mais importante
que a explicao motivada pela varivel X, significando que outras variveis
devem ser incorporadas ao modelo a fim de explicar o comportamento de Y. O
modelo exige ento uma "anlise de regresso mltipla linear.
A regresso mltipla usada, portanto, para testar dependncias
cumulativas de uma nica varivel dependente em relao diversas variveis
independentes. Cada varivel isolada e mantida constante enquanto as
variveis restantes variam sistematicamente, sendo observados os seus efeitos
sobre a varivel dependente. A varivel a ser inicialmente mantida constante
aquela que ocasiona a maior influncia na variabilidade da varivel
dependente.
O modelo geral representado por
y x x
i o i m mi i
= + + + +
1 1
L
A condio inicial, como na regresso linear simples, descrita por
22
y a a x e
o
= + +
1 1 1
, onde x
i
a varivel independente, responsvel pela
maior variabilidade, a
o
e a
1
so os coeficientes e e
1
o erro, isto , a
variabilidade em Y no explicada pela relao linear. A varivel que, em
seguida, mais reduz a variabilidade do erro em seqncia adicionada de tal
modo que
y b b x b x e
o
= + + +
1 1 2 2 2
, sendo b b e b
o
,
1 2
calculados e e e
2 1
< . O processo
segue por etapas at que o comportamento de todas as variveis
independentes em relao dependente seja verificado. Os coeficiente b
i
so
conhecidos como parciais de regresso porque cada um deles fornece a taxa
de mudana na varivel dependente correspondente respectiva varivel
independente, mantendo constantes as demais variveis independentes.
A equao que representa a relao linear entre uma varivel
dependente (y
i
) e uma nica varivel independente (x
i
) :
Y a a x
i o i
= +
1

As equaes normais que fornecem os valores de a
o
e a
1
so:
+ y
i
a
o
n a
1
x
i
2
( 1 )
+ + x y a x a x
i i o i i 1
2
( 2 )
As equaes ( 1 ) e ( 2 ) constituem um par de equaes normais a duas
incgnitas, as quais podem ser resolvidas para a obteno dos coeficientes,
por clculo matricial, segundo:

[ ] [ ] [ ] X A Y
XA Y =

Multiplicando ambos os termos da equao pelo inverso de [X], isto ,
[ ] X
1
:
[ ] . [ ] . [ ] [ ] X X A X Y

=
1 1

Como [ ] . [ ] [ ] X X I

=
1
(matriz de identidade)
e [ ] . [ ] [ ] I A A =
[ ] . [ ] [ ] A X Y

=
1

Por extenso, a anlise de regresso mltipla linear de quaisquer m
variveis independentes sobre uma varivel dependente, sendo expressa por:
Y a a X a X a X
i o i i m mi
= + + + +
1 1 2 2
L ,
pode ser resolvida segundo:
23

n x x
x x x x
x x x x x
x x x x
a
a
a
a
y
x y
x y
x y
X A Y
i mi
i i i mi
m
mi mi mi
o
m
i
i i
i i
mi i



(
(
(
(
(
(

(
(
(
(
(
(

(
(
(
(
(
(
1
1 1
2
1
2 2 1 2
1
2
1
2
1
2
L
L
L
M
L
[ ] [ ] [ ]


[ ] [ ] [ ] A X Y =
1


Uma das mais importantes aplicaes da anlise de regresso mltipla
a escolha, entre diversas variveis independentes, daquelas mais teis na
previso de Y.
A varincia total de Y em parte "explicada" pelas diversas variveis X's
e o restante pela variabilidade devido ao erro (
1
). claro que o termo
"explicada" tem apenas um significado numrico no implicando
necessariamente em um conhecimento causa-efeito sobre o porque da relao
existente.
Os tamanhos relativos dessas duas componentes de varincia so
obviamente de grande interesse quando da aplicao da anlise de regresso
mltipla. A proporo da varincia dos Y observados "explicada" por uma
equao de regresso ajustada representada pelo coeficiente de
determinao R.
R
2
varincia de Y explicada pela analise de regressao)
(variancia total)
s
y *
2
s
y
2
= =
( &
~
$

Valores de R
2
iro dispor-se no intervalo 0-1, fornecendo uma medida
dimensional de quantidade do ajuste do modelo de regresso mltipla aos
dados. Se o valor de R for prximo de 1 isso significa que as diversas
variveis X's medidas so responsveis quase que totalmente pela
variabilidade de Y. Caso contrrio, R apresentar um valor prximo a zero.
Como os coeficientes de regresso so parciais devem ser obtidas as
porcentagens explicadas da soma de quadrados de Y segundo 2 1
k

combinaes, onde k o nmero de variveis independentes. Finalmente
24
verifica-se a contribuio pura de cada varivel independente por comparaes
sucessivas entre os diversos resultados.
Outra maneira para a ordenao das variveis pela sua importncia na
previso da varivel dependente a padronizao dos coeficientes de
regresso parciais, convertendo-os em unidades de desvio padro, ( B
k
), (Li,
1964, p. 136):
B b
S
S
k k
k
Y
= , onde b
k
= coeficiente de regresso parcial;
S
k
= desvio padro de X
k
; S
y
= desvio padro de Y.
Pela comparao direta dos B
k
determinam-se as variveis mais
eficientes.
Embora a regresso mltipla seja multivariada no sentido de que mais
de uma varivel medida simultaneamente em cada observao, trata-se na
realidade de uma tcnica univariada, pois o estudo apenas em relao
variao da varivel dependente Y, sem que o comportamento das variveis
independentes, Xs, seja objeto de anlise.
Finalmente, alguns cuidados que se deve tomar quando da utilizao da
anlise de regresso:
a) as relaes entre as variveis devem ser lineares
b) evitar um nmero inferior de casos em relao ao nmero de variveis
consideradas; recomendado que tal relao seja da ordem de 10 a 20
vezes superior
c) evitar variveis independentes redundantes, isto , que tenham um alto
coeficiente de correlao entre si
d) verificar, utilizando resduos, a presena de valores anomalos

Exemplo:
Denise de La Corte Bacci, em sua tese de doutorado, procurou avaliar os
impactos ambientais gerados pela explorao mineral em uma pedreira de
diabsio na regio de Campinas/SP. Os principais objetivos foram quantificar
as vibraes no terreno, considerando os parmetros fsicos da rea; avaliar os
efeitos das vibraes nas construes civis prximas cava e a possibilidade
de danos; determinar o zoneamento dinmico da rea e os limites de
segurana para ocupao pela populao local; formular equaes
25
matemticas que representassem o fenmeno vibratrio na rea de estudo;
conhecer a propagao das ondas no terreno e sua atenuao, considerando
os parmetros que interferem no seu comportamento.
Assim foram coletados dados, em diversos pontos nos arredores da
cava e distribuidos em relao s vrias frentes de lavra, com o auxlio de
ssmgrafos especficos relacionando os registros das velocidades de vibrao
da partculas no terreno com sua freqncia de oscilao.
O monitoramento foi realizado numa rea de 1 km de raio ao redor da
cava, com distribuio dos pontos nas direes principais de propagao das
ondas, medidos na parte posterior das bancadas. Foram determinadas quatro
direes preferenciais de propagao das vibraes: N24, N84 N111, N20,
respectivamente de acordo com as bancadas A, B, CD e E, e os pontos de
registro foram distribudos segundo uma malha homognea. No total foram
monitoradas 28 detonaes, com 146 registros.
O levantamento dos dados consistiu na obteno dos valores de
velocidade, acelerao e deslocamento da partcula e de sua freqncia
durante detonaes em rochas, com uso de explosivos. Na tabela 3.1. esto os
dados referentes frente B
__________________________________________________________________
SEN1 SEN2 VP CARGA DISTNCIA SOLO FREQNCIA
-------------------------------------------------------------------------------------------------------------
-0.0534 0.0333 6.59 160 568 27 85
-0.0302 0.0257 24.8 180 300 27 43
-0.0555 0.0317 16.9 180 395 24 51
0.0507 -0.0331 15.1 80 364 22 37
0.0078 0.0055 14.9 80 444 27 51
0.0505 -0.0246 9.79 80 485 28 85
0.0550 -0.0328 8.41 80 574 31 43
-0.0302 0.0257 9.78 92 294 27 43
0.0228 -0.0038 10.1 92 500 28 39
-0.0555 0.0317 4.25 80 584 24 57
-0.0420 0.0306 3.74 80 616 21 73
0.0228 -0.0038 8.99 74 384 29 43
-0.0298 0.0084 8.83 74 480 27 64
0.0228 -0.0038 2.16 74 668 15 47
0.0549 -0.0299 2.13 74 718 10 64
_____________________________________________________________________
Tabela 3.1.: Dados referentes frente B. Vp a varivel dependente e as demais
independentes
26

Utilisando-se da anlise de regresso mltipla procurou determinar a
importncia das variveis distncia (D), carga mxima por espera (Q), distncia
reduzida (SD), em conjunto com a direo e densidade do fraturamento,
profundidade do topo rochoso e espessura da camada de solo residual, e
freqncia de oscilao na componente vertical, na variao da velocidade de
vibrao da partcula, nas diferentes direes preferenciais de propagao da
onda ssmica.
As variveis definidas foram consideradas independentes, enquanto a
velocidade de propagao das ondas (Vp) foi considerada dependente.
Procurou, desse modo, determinar a influncias das variveis independentes
no comportamento da varivel dependente.
Admitiu para a rea que, quanto maior a espessura da camada de solo,
menor seria o valor de Vp e menor a freqncia de oscilao, sendo maior a
atenuao da onda ssmica, pois a velocidade de propagao das ondas no
solo maior que na rocha, ocorrendo o inverso com relao freqncia de
oscilao.
Para direes de propagao das vibraes paralelas famlia principal
de fraturas, a atenuao da onda seria menor e, consequentemente, os valores
de Vp esperados seriam maiores, pois a onda ssmica, encontrando um menor
nmero de fraturas em sua trajetria, no sofre reflexes ou refraes,
diminuindo a disperso de energia e aumentando os efeitos de sua propagao
no terreno.
J para as direes de propagao perpendiculares ao fraturamento
principal, o esperado seria uma maior atenuao das ondas e valores menores
de Vp. Nesse caso, a disperso de energia seria maior devido presena das
fraturas.
No s a direo, mas tambm a densidade de fraturamento,
representada pelo maior ou menor espaamento entre as fraturas, interferiria
na atenuao das vibraes e foi tambem considerado no estudo. Um maior
espaamento entre as fraturas significa um menor nmero de descontinuidades
na trajetria da onda e consequentemente um valor de Vp esperado maior,
mostrando uma relao direta entre essas duas variveis consideradas.
27
Definiu o ngulo entre a direo principal de fraturamento e a direo de
registro de Vp, variando de 0 a 90 e refletindo a mnima e a mxima
interferncia das descontinuidades. Foram consideradas as duas principais
famlias de fraturas, com direes leste-oeste e noroeste-sudeste,
respectivamente. A funo matemtica que melhor representaria essa relao
seria o seno, tendo sido, assim, adotado como uma das variveis analisadas.
Tomando apenas os dados referentes frente B, foi obtido o seguinte
resultado, tendo como procedimento de estimao a anlise de regresso
passo-a-passo com remoo das variveis por ordem crescente de importncia
(stepwise backward).
Passo inicial, com todas as variveis independentes
R
2
=0,842
Passo 1
varivel removida: SEN1
permanecem: SOLO, FREQNCIA, SEN2, CARGA, DISTNCIA
R
2
= 0,842
Passo 2
varivel removida: SOLO
permanecem: FREQNCIA, SEN2, CARGA, DISTNCIA
R
2
= 0,841
Passo 3
varivel removida: FREQUNCIA
permanecem: SEN2, CARGA E DISTNCIA
R
2
= 0,836
Passo 4
varivel removida: SEN2
permanecem:CARGA, DISTNCIA
R
2
= 0,776
Passo 5
varivel removida: CARGA
permanece: DISTNCIA
R
2
= 0,666

Com estes resultados estabeleceu-se a seguinte ordem de importncia das
6 variveis independentes para explicar a variabilidade de Vp:

DISTNCIA: 66,6%
CARGA: 11,0% (0,776 0,666)
SEN2: 6% (0,836 0,776)
FREQUNCIA: 0,5% (0,841 0,836)
SOLO: 0,1% (0,842 0,841)
SEN1: 0% (0,842 0,842)

28
A anlise de regresso mltipla foi, desse modo, aplicada s quatro
frentes de detonao, obtendo a importncia relativa de cada varivel
independente na previso da varivel dependente.

Variveis independentes % explicada de Vp

A B CD E
Distncia 51,0 66,6 47,3 48,9
carga mxima por espera 11,7 11,0 19,3 0,2
Espessura da camada de solo 2,3 0,1 0 2,2
Freqncia de oscilao 4,9 6,0 5,3 9,6
seno
1
0 0 0 0,2
seno
2
0 6,0 0,1 8,6

total explicado pelas variveis (%) 69,9 84,2 72,0 69,7
Tabela 3.2.: Valores obtidos atravs da anlise de regresso mltipla para os
dados de detonao

Por meio dessa anlise foi possvel avaliar a interferncia das diversas
variveis nas vibraes geradas no terreno.
Analisando o peso de cada varivel independente, observou que a
distncia real entre o ponto de registro e a frente de detonao a que melhor
explicou a variao de Vp, uma vez que a atenuao das vibraes no terreno
proporcional ao aumento da distncia da fonte de emisso de energia
ssmica. Na figura 3.1. tal relao linear pode ser observada e tambem a
presena de alguns valores anmalos presentes, situados fora dos intervalos
de confiana de 95%.
A segunda varivel que mais explicou a variao de Vp foi a carga
mxima por espera, que a prpria fonte geradora de energia e, portanto,
diretamente relacionada s vibraes produzidas no terreno.
Notou ainda, que as demais variveis, segundo essa anlise,
apresentaram pequena interferncia nos valores de Vp, o que no era
esperado, e os resultados obtidos mostraram que as variveis escolhidas
29
representaram bem a variao de Vp na rea estudada, explicando de 70 a 85
% o seu comportamento.



Figura 3.1.: Anlise de regresso linear entre Vp e Distncia





BIBLIOGRAFIA
LI, C.C. (1964) - Introduction to Experimental Statistics: McGraw Hill, Inc.








Regression
95% confid.
DISTANC vs. VP
VP = 28.811 - .0387 * DISTANC
Correlation: r = -.8164
DISTANC
V
P
0
4
8
12
16
20
24
28
250 350 450 550 650 750
30
4. ANLISE DE AGRUPAMENTOS

4.1. Introduo
Anlise de agrupamentos (cluster analysis) um termo usado para
descrever diversas tcnicas numricas cujo propsito fundamental classificar
os valores de uma matriz de dados sob estudo em grupos discretos. A tcnica
classificatria multivariada da anlise de agrupamentos pode ser utilizada
quando se deseja explorar as similaridades entre indivduos (modo Q) ou entre
variveis (modo R) definindo-os em grupos, considerando simultaneamente, no
primeiro caso, todas as variveis medidas em cada indivduo e, no segundo,
todos os indivduos nos quais foram feitas as mesmas mensuraes. Segundo
esse mtodo, desenvolvido, inicialmente em Zoologia por taxonomistas
numricos, procura-se por agrupamentos homogneos de itens representados
por pontos num espao n-dimensional em um nmero conveniente de grupos
relacionando-os atravs de coeficientes de similaridades ou de
correspondncia.
A aplicao desta anlise controversa entre os pesquisadores, pois
pouco se sabe a respeito dos pressupostos estatsticos dos seu vrios mtodos
e apenas testes limitados so conhecidos para verificar a significncia dos
resultados. Na anlise introdutria de matrizes de dados tornam-se, porem,
bastante eficientes para auxiliar na formulao de hipteses a respeito da
homogeneidade ou no desses dados.

4.2. Classificao

Segundo Davis (1986) os diversos mtodos para a anlise de
agrupamentos podem ser enquadrados em quatro tipos gerais:
a) Mtodos de partio: procuram classificar regies no espao, definido em
funo de variveis, que sejam densamente ocupados em termos de
observaes daqueles com ocupao mais rala.
31
b) Mtodos com origem arbitrria: procuram classificar as observaes
segundo k conjuntos previamente definidos. Neste caso k pontos
arbitrrios serviro como centrides iniciais e as observaes iro se
agrupando, por similaridade, em torno desses centrides para formar
agrupamentos.
c) Mtodos por similaridade mtua: procuram agrupar observaes que tenham
uma similaridade comum com outras observaes. Inicialmente uma matriz n
x n de similaridades entre todos os pares da observao calculada. Em
seguida, as similaridades entre colunas so repetidamente recalculadas.
Colunas representando membros de um nico agrupamento tendero
apresentar intercorrelaes prximas a 1 e valores menores com no
membros.
d) Mtodos por agrupamentos hierrquicos: so as tcnicas mais comumente
usadas em Geologia. A partir da matriz inicial de dados obtem-se uma matriz
simetrica de similaridades e incia-se a deteco de pares de casos com a
mais alta similaridade, ou a mais baixa distncia. Para essa combinao,
segundo nveis hierrquicos de similaridade, escolhe-se entre os diversos
procedimentos aglomerativo de tal modo que cada ciclo de agrupamento
obedea a uma ordem sucessiva no sentido do decrscimo de similaridade.

4.2.1. Metodologia para agrupamentos hierrquicos
Partindo de uma matriz inicial de dados, onde "n" linhas representam
casos ou espcimes ou amostras, no sentido geolgico, e as "p" colunas as
variveis, feitas as comparaes, usando um coeficiente de similaridade
qualquer entre linhas, obtm-se uma matriz inicial de coeficiente de
similaridade de tamanho
| |
n n * , que ser utilizada no modo Q. Se a
comparao for entre colunas, obter-se-a uma matriz inicial de coeficientes de
similaridade inicial
| |
p p * , que ser utilizada no modo R. Embora diversas
medidas de similaridade tenham sido propostas, somente duas so geralmente
usadas: coeficiente de correlao e coeficiente de distncia. Se as variveis
forem padronizadas a partir da matriz inicial de dados, dando o mesmo peso a
cada uma delas, qualquer um desses coeficientes poder ser diretamente
transformado no outro
32
Na matriz inicial de coeficientes de similaridade estes representam o
grau de semelhana entre pares de objetos e os mesmos devero ser
arranjados de acordo com os respectivos graus de similaridade de modo a
ficarem agrupados segundo uma disposio hierrquica. Os resultados quando
organizados em grfico, do tipo dendrograma, mostraro as relaes das
amostras agrupadas.
Vrias tcnicas de agrupamentos tem sido propostas, e os mtodos
mais comumente usados so: ligao simples (single linkage method ou
nearest neighbor); ligao completa (complete linkage method ou farthest
neighbor); agrupamento pareado proporcionalmente ponderado" (weighted
pair-group method, WPGM); agrupamento pareado igualmente ponderado
(unweighted pair-group method, UPGM); varincia mnima (minimum
variance clustering ou Wards method of sum-of-squares method).
No mtodo de ligao simples os grupos iniciais so determinados pelos
mais altos coeficientes de associao mtua. Para admisso de novos
membros aos grupos suficiente encontrar quais os que representam os
maiores coeficientes de associao com um dos elementos de determinado
grupo. A ligao ser estabelecida a esse nvel de associao com todo o
grupo. No mtodo de ligao completa os gupos so determinados pelos mais
baixos coeficientes de associao mtua. Ambos so os mtodos mais
simples, mas tambem os que apresentam os resultados mais distorcidos.
No mtodo de agrupamento pareado procura-se tambm inicialmente
pelos mais altos coeficientes de associao mtua. Em seguida esses pares de
casos fornecero valores mdios originando um novo elemento singular. No
"mtodo de agrupamento pareado igualmente ponderado" para o clculo dos
valores mdios atribui-se sempre o mesmo peso aos dois elementos que esto
sendo integrados. No mtodo de agrupamento pareado proporcionalmente
ponderado para cada agrupamento dado um peso proporcional ao nmero de
objetos que o constitui, de tal modo que a incorporao e um novo elemento a
um grupo baseia-se no nvel mdio de similaridade desse elemento com todos
os que fazem parte do grupo. Tanto num caso como no outro, alternativamente,
em vez de obter valores medios entre os casos podem ser utilizados centroides
e verificados as distncias entre os mesmos.
33
No mtodo de agrupamento pela varincia mnima o enfoque sobre a
variabilidade que existe dentro de cada caso e os agrupamentos so efetuados
ao se determinar que pares de casos, quando tomados em conjunto,
apresentam o menor acrescimo de variabilidade.
No mtodo de ligaes singulares as ligaes tendem a ocorrer a nveis
mais altos do que nos mtodos de agrupamento pareado. No mtodo de
agrupamento pareado igualmente ponderado como cada membro adicionado
ao agrupamento tem sempre o mesmo peso, isso traz como efeito que os
ltimos elementos a se integrarem tem maior influncia que os primeiros. No
caso do mtodo de agrupamento pareado proporcionalmente ponderado, tal
no acontece.
Existindo disposio diversas tcnicas para a anlise de agrupamentos
e no havendo testes estatsticos vlidos para os resultados obtidos, o
pesquisador geralmente fica em dvida sobre qual mtodo aplicar. Entendendo
que esta anlise sempre deve ser aplicada com carter introdutrio, e nesse
sentido tem o seu mrito, a considerao de ordem pragmtica a ser adotada
que o melhor mtodo aquele que fornece os resultados mais coerentes com a
realidade geolgica em estudo.
Aplicaes desta metodologia tem mostrado que os mtodos pareados
igualmente ponderado so superiores aos demais e que o coeficiente distncia
usualmente agrupa melhor espcimes ou amostras, no sentido geolgico,
enquanto o coeficiente de correlao recomentado para o agrupamento entre
variveis. Essas afirmaes so baseadas na correlao cofentica que ao
apresenrar valores abaixo de 0,8 indicam distores significativas no
dendrograma obtido.
O mtodo hierrquico tem sido preferido em relao ao que utilisa
centrides. Este porm mostra-se, em termos computacionais, mais til quando
se tem que manipular grandes matrizes de dados, por exemplo com mais de
1.000 casos. Como k geralmente pequeno, da ordem de 5 por exemplo,
mais rpido o manuseio de uma matriz de similaridade k x n do que uma com
dimenses n x n.



34
4.2.2. Dendrograma
A forma grfica usada para representar o resultado final dos diversos
agrupamentos o dendrograma (Figura 4.1.) Nele esto dispostos linhas
ligadas segundo os nveis de similaridade que agruparam pares de espcimes
ou de variveis. Como este grfico uma simplificao em duas dimenses de
uma relao n-dimensional inevitvel que algumas distores quanto
similaridade apaream. A medida de tal distoro pode ser obtida por um
coeficiente de correlao, dito "cofentico", entre os valores da matriz inicial de
similaridade e aqueles derivados do dendrograma.
Visualmente isso pode ser tambm verificado por meio da construo de
um sistema de eixos ortogonais. Nele os valores dos coeficientes de
similaridade originais estaro na abcissa e
os coeficientes de similaridade a partir do dendrograma em ordenada. Se
ambas as matrizes forem idnticas os pontos cairo sobre uma linha reta que
passa pela origem do sistema. Desvios dos pontos em relao a essa reta
indicaro as distores. Se situadas acima da reta indicaro coeficientes de
similaridade apontados pelo dendrograma mais altos que os originais e vice-
versa.



35


Figura 4.1. Formatos de dendrogramas

A construo de um dendrograma pode ser esquematizada, de acordo
com o exposto na Figura 4.2. Nessa Figura, inicialmente, os mais altos ndices
de correlao ocorrem entre as amostras D e E (0,66) e entre as amostras A e
B (0,57) que iro constituir novos casos na matriz de correlaes j pareadas.
Nessa matriz os mais altos coeficientes de correlao ocorrem entre DE e F
(0,41) e AB e C(0,29). Finalmente a correlao final ocorre ao nvel de 0,59
entre ABC e DEF.
Dendrograma
Mtodo: UPGM
Distncia euclidiana
V
a
l
o
r
e
s

p
a
r
a

a
g
r
u
p
a
m
e
n
t
o
0
50
100
150
200
250
C_9
C_13
C_6
C_5
C_8
C_12
C_4
C_3
C_2
C_15
C_14
C_11
C_10
C_7
C_1
Dendrograma
Mtodo: UPGM
Distncia euclidiana
V
a
l
o
r
e
s

p
a
r
a

a
g
r
u
p
a
m
e
n
t
o
0
50
100
150
200
250
C_9
C_13
C_6
C_5
C_8
C_12
C_4
C_3
C_2
C_15
C_14
C_11
C_10
C_7
C_1
36


Figura 4.2. Esquema de construo de um dendrograma pelo
mtodo de agrupamentos pareados igualmente ponderados (adaptado de
Davis, 1986)

4.2.3. Coeficientes de Similaridade
Os coeficientes de similaridade mais usuais, obtidos num espao
multidimensional, podem ser subdivididos em trs categorias:
a) os que medem a distncia, ou a separao angular, entre pares de pontos;
b) os que medem a correlao entre pares de valores;
c) os que medem a associao entre pares de caracteres qualitativos.
Existem diversas publicaes que discutem esses diversos tipos de
medidas como, por exemplo, Sneath & Sokal (1973), Everitt (1980), Prentice
(1980), Gordon (1981), Greig-Smith (1983), Pielou (1984), alem do resumo,
sobre 23 coeficientes de similaridades, constante no pacote MVSP, verso 3.1.

4.2.3.1. Coeficientes de distncia
Expressam o grau de similaridade como distncia em um espao multi-
dimensional. Quanto maior a distncia, maior o grau de similaridade e vice-
versa. A distncia D entre dois pontos, cuja localizao especificada num
sistema de coordenadas cartesianas, fornecida, segundo o teorema de
Pitgoras, por
37
D x x y y
1 2 1 2
2
1 2
2
.
( ) ( ) = +
onde x x y e y
1 2 1 2
, , so valores das coordenadas dos dois pontos.
Para a distncia entre k pontos, num espao n-dimensional, a frmula
generalizada :
D x x n
ij ik jk
k
n
=
=

( ) /
2
1

Tendo todas as variveis o mesmo peso, consequentemente a funo
distncia ser limitada a valores entre 0 (maior similaridade) e 1.0 ( menor
similaridade).
Pode, tambem, ser ulizado o coeficiente cosseno-teta, que uma
medida de proporcionalidade expressando o grau de similaridade em termos de
separao angular:

( )
Cos
x x
x x
pq
ip iq
ip iq
=


2 2
1 2 /
, p e q = valores comparados
Quando a similaridade completa, a separao angular 0 e cos =
1.0; quando no ocorre similaridade nenhuma, a separao angular 90 e o
cos = 0.0

4.2.3.2. Coeficientes de Correlao
Medem o grau de associao entre valores pela representao de
pontos num sistema de coordenadas e suas respectivas posies em relao a
uma linha reta. Podem tanto ser considerado o coeficiente de correlao
paramtrico (Pearson) como o no paramtrico (Spearman).
coeficiente de correlao paramtrico (Pearson)
O coeficiente de correlao da amostra r (ou *) o qual uma estimativa
do coeficiente de correlao populacional , dado por:
r
x y
x y
x
i
x y
i
y
n
x
i
x
n
y
i
y
n
= =

cov( , )
[var( ) var( )]
/
( ) ( )
[
( )
.
( )
]
/ 1 2
1
2
1
2
1
1 2




Onde n o nmero de pares de valores para x
i
e y
i
, variveis com
distribuio normal, e x e y so os valores mdios para x
i
e y
i
.
38
Utilizando o mtodo dos mnimos quadrados para o clculo do
coeficiente de correlao, a seguinte frmula simplificada usada:
r
SPXY
SQX SQY
=
.

SPXY = xy -(x y) / n
SQX = x
2
- (x)
2
/ n
SQY = y
2
- (y)2
2
/ n
Valores de r , os quais so medidas adimensionais, podem variar entre -
1 +1, expressando desde comportamento totalmente inverso at
comportamento totalmente direto entre as duas variveis. Quando r=0 significa
que no h relao linear entre x e y.
Coeficiente de correlao no-paramtrico de Spearman
um coeficiente de correlao no paramtrico entre duas variveis, x
i

e y
i
, em que para o seu clculo inicialmente x
i
e y
i
so ordenados segundo os
seus valores de posto ( x
i
,
e y
i
,
) e em seguida encontrados os valores
d
i
x
i
y
i
=
, ,
.
Para que os valores negativos de d
i
no cancelem os valores positivos
de d
i
determinado para cada caso d
i
2
. Finalmente encontra-se a somatria
dos d
i
2
.
O coeficiente de correlao ser fornecido pela frmula:
r
s
d
i
n n
=

1
6
2
3

n = nmero de pares de valores x


i
,
, y
i
,

Caso ocorram muitos casos com valores de posto empatados usa-se a
frmula:
r
s
x
e
y
e
d
i
x
e
y
e
=
+

, ,
, ,
2
2

onde
x
e
n n
T
x
,
=


3
12
; y
e
n n
T
y
,
=

3
12

T
t t
=

3
12
; T = nmero de observaes repetidas em um determinado
posto.
39

Como um exemplo numrico, seja uma matriz de dados composta por 7
amostras, no sentido geolgico, e 6 variveis:

V01 V02 V03 V04 V05 V06
Am01 1.0 2.0 3.0 4.0 5.0 6.0
Am02 5.0 4.0 1.0 8.0 7.0 9.0
Am03 6.0 5.0 4.0 2.0 7.0 9.0
Am04 6.0 4.0 2.0 1.0 3.0 7.0
Am05 9.0 2.0 1.0 4.0 7.0 8.0
Am06 9.0 6.0 3.0 4.0 5.0 6.0
Am07 1.0 5.0 9.0 7.0 5.0 3.0

Utilisando o coeficiente distncia euclidiana, obtem-se a seguinte
matriz inicial de similaridades:

Am01 Am02 Am03 Am04 Am05 Am06 Am07


Am01 .00 7.3 7.2 6.6 8.7 8.9 7.9
Am02 7.28 .0 6.9 8.4 6.1 7.3 11.0
Am03 7.21 6.9 .0 5.1 5.7 5.3 10.7
Am04 6.63 8.4 5.1 .0 6.3 5.3 11.4
Am05 8.72 6.1 5.7 6.3 .0 5.3 13.2
Am06 8.94 7.3 5.3 5.3 5.3 .0 10.9
Am07 7.94 11.0 10.7 11.4 13.2 10.9 .0

Na Figura 4.2. esto os dendrogramas resultantes da aplicao de dois
mtodos: ligao simples (single linkage) e agrupamento pareado
igualmente ponderado (unwighted pair-group average).
Verificar que os r,dendrogramas resultantes so praticamente os
mesmos, em que pese as diferenas mostradas em ambos os grficos.


40





Figura 4.2. Dendrogramas resultantes dos mtodos single linkage e UPGM





Dendrograma
"Single Linkage"
Distncia euclidiana
Nveis para agrupamento
AM07
AM05
AM06
AM04
AM03
AM02
AM01
4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
Dendrograma
"Unweighted pair-group average"
Distncia euclidiana
Nveis para agrupamento
AM07
AM05
AM06
AM04
AM03
AM02
AM01
4 5 6 7 8 9 10 11
41
4.2.3.3. Coeficientes binrios
Expressam similaridades em termos de equiparaes (matches) quando
so utilizados dados qualitativos. Neste caso comparaes so feitas entre
observaes reduzidas a duas categorias do tipo sim-no, presente-ausente,
etc. Se verificado em 4 perfs estratigrficos a presena ou ausencia de 4 tipos
de fsseis a seguinte matriz de dados binrios pode ser construida:





Se tomadas dois objetos (A e B) e um mesmo caracter estiver presente
em ambos, tal situao ser representada por "a"; se presente em A, porm
ausente em B, por "c"; se presente em B, porm ausente em A , por "b" ; se
ausentes em ambos, por d.



presente ausente
Presente a b
Ausente c d


Os coeficientes binrios, podem ser agrupados em:
42
a) coeficientes de similaridade: expressam a proporo de caracteres que dois
objetos possuem mutuamente quando comparados com o nmero total de
caracteres possudos por um dos objetos ou pelo outro, ou por ambos;
Jaccard: a a b c / ( ) + +
Otsuka : a a b a c / ( ) ( ) + +
Fager : a a b a c min a b a c / ( ) ( ) / { ( ),( ) } + + + + 1 2

b) coeficientes de associao: expressam a probabilidade de acontecimento,
por acaso, de um certo nmero de caracteres comuns a dois objetos;
Yule : ( ) / ( ) ad bc ad bc +
Phi : ( ) / ( ) ( ) ( ) ( ) ad bc a b a c b d c d + + + +
c) coeficientes de equiparao: expressam a similaridade entre dois objetos em
termos de equiparaes positivas, isto , presena de um mesmo caracter em
ambos os objetos, em relao a equiparaes negativas, isto , ausncia de
um mesmo caracter um ambos os objetos, mais equiparaes
desencontradas;
Simples : ( ) / a d n +
Hamann : ( ) / a d b c n +
Sackin : a n /
d) coeficientes de distncias: expressam o distanciamento entre dois objetos
em um espao multi-dimensional;
Sokal : ( ) / b c n +









43
Novamente, como exemplo numrico, seja uma matriz com dados
binrios em que o valor 1 significa presente e 0 ausente:

V01 V02 V03 V04 V05 V06
Am01 1.0 1.0 0.0 0.0 0.0 1.0
Am02 0.0 0.0 1.0 1.0 0.0 0.0
Am03 0.0 1.0 1.0 0.0 0.0 0.0
Am04 1.0 1.0 2.0 1.0 3.0 0.0
Am05 0.0 0.0 1.0 1.0 1.0 1.0
Am06 1.0 1.0 0.0 0.0 0.0 1.0
Am07 0.0 0.0 1.0 1.0 1.0 1.0

Nessa matriz as amostras 01 e 06 so idnticas, o mesmo acontecendo
com as amostras 05 e 07.
A matriz inicial de similaridades, aps calculados os coeficientes de
Jaccard, a seguinte:

Am01 Am02 Am03 Am04 Am05 Am06 Am07
Am01 1.000
Am02 0.000 1.000
Am03 0.250 0.333 1.000
Am04 0.333 0.400 0.400 1.000
Am05 0.167 0.500 0.200 0.500 1.000
Am06 1.000 0.000 0.250 0.333 0.167 1.000
Am07 0.167 0.500 0.200 0.500 1.000 0.167 1.000

E o dendrograma resultante esta exposto na Figura 4.3.







44



Figura 4.3. Dendrograma resultante da aplicao do coeficiente binrio de
Jaccard pelo mtodo de ligao simples. Notar as relaes entre amostras 01 e
06 e entre amostras 05 e 07, todas ao nvel 1.0

Exemplo
A indstria cermica existente na regio de Rio Claro (SP), incluindo o
plo cermico de Santa Gertrudes-Cordeirpolis, uma das maiores do mundo
e necessita, portanto, de um acompanhamento tecnolgico que a torne cada
vez mais competitiva. A caracterizao da matria-prima para a indstria de
necessidade premente para o controle da qualidade do produto final. Com o
conhecimento dessa matria-prima, de suas propriedades e comportamento
fsico-qumico possvel otimizar a blendagem do material e calibrar todo o
processo de beneficiamento, principalmente fornos, buscando uma maior
homogeneidade nos produtos. Com essa preocupao Monteiro et alli (2000)
aplicaram a analise de agrupamentos dados provenientes de lamitos e
folhelhos da Formao Itarar do topo da 3
a
bancada do argileiro da Cermica
Montreal (Fazenda So Caetano, em Jundia/SP). Foram identificados 7 nveis
estratigrficos, tendo sido utilizadas amostras de apenas 5 nveis: Nvel 4
45
folhelho extraglacial com intercalaes de silte caulintico e como pricipais
argilominerais a illita, a vermiculita e interestratificadas illita/montimorilonita (I-
M); Nvel 5 lamito proglacial com argilas do tipo interestratificada (I-M), clorita
e caolinita num ambiente transicional; Nvel 3 lamito desorganizado de lobos
de suspenso, em subambiente terminoglacial com razo silte/areia muito fina
s/amf=68%, com caolinita e illita; Nvel 2 lamito com nveis arenosos e
s/amf=85%, com caolinita e illita; e Nvel 1 lamito com raros seixos, grnulos
e s/amf=63%, com caolinita e illita. Os nveis 3 a 1 apresentam quantidades
crescentes de caolinita para o topo e a esmectita est restrita ao nvel 4. No
nvel 5, intermedirio predominam as interestraticadas (Figura 4.4.).
A amostragem foi executada nos 5 nveis e identificadas como 4J, 5J,
3J, 2J e 1J, da base para o topo, sendo que no nvel 5 foi replicada a
amostragem (5aJ e 5bJ). Foram analisadas diversas propriedades desse
material como: umidade de prensagem, absoro de gua, porosidade
aparente, densidade aparente, perda ao fogo, retrao linear na secagem,
queima parcial e queima total e tenso ruptura por flexo. Para as variveis
absoro de gua (AA - em %), porosidade aparente (PA - em %), massa
especfica aparente (MEA - em g/cm
3
) e massa especfica aparente da parte
slida (MEAS - g/cm
3
), perda ao fogo (%PF), retrao linear na queima parcial
(%Rq), retrao linear na queima total (%Rt) e tenso ruptura por flexo (TRF
- em kg/cm
2
); foram feitas anlises para cinco partes de cada amostra nas
temperaturas de queima de 1.020C, 1.070C e 1.120C.
A anlise de agrupamentos no modo Q, ou seja, entre amostras,
apresentou ntida distino entre o grupo de amostras 1J e 2J com o grupo 3J,
5aJ e 5bJ e 4J (Figura 4.5.). Essa distino pode estar condicionada pela
presena de caulinita dos materiais superiores, ou pela sua desagregao sob
ao mais direta do perfil de intemperismo.De qualquer modo essa diferena
nas caractersticas tambm notvel nas propriedades cermicas daquele
materiais.
O primeiro grupo subdivide-se em amostras 1J e 2J. O segundo grupo
pode ainda ser subdividido em dois outros; um com as amostras 3J e 4J e
outro com 5aJ e 5bJ. Apesar do nvel 3 possuir caulinita, diferentemente do
nvel 4, ficaram agrupados em um subgrupo. A illita comum s duas
amostras e esta similaridade provavelmente deve-se a outro fator. As amostras
46
do nvel 5, que tem caractersticas de transio e apresentam uma argila
interestratificada que
comercializada in natura pela empresa, como descorante na indstria txtil.
Entre as amostras 5aJ e 5bJ no to ntida a diviso, o que j era esperado
pelo controle geolgico e de amostragem.



Figura 4.2.: Perfil estratigrfico da Cermica Montreal (Fazenda So Caetano,
em Jundia/SP)

47

Mtodo WPGMA
A
m
o
s
t
r
a
s
Distncia Euclidiana
1J-1
1J-2
1J-4
1J-3
1J-5
2J-1
2J-3
2J-2
2J-5
2J-4
3J-1
3J-3
3J-4
3J-5
4J-1
3J-2
4J-4
4J-2
4J-3
4J-5
5AJ-1
5BJ-4
5BJ-3
5AJ-4
5AJ-3
5AJ-5
5AJ-2
5BJ-2
5BJ-5
5BJ-1
240 200 160 120 80 40 0

Figura 4.5.: Anlise de Agrupamentos entre as amostras (modo Q)

A anlise de agrupamentos no modo R, ou seja, entre variveis, no
permitiu consideraes to claras como para o caso entre amostras (Figura
4.6.).
O que se pde observar, com certa facilidade, que algumas variveis
como retrao linear na queima parcial (%Rq) e total (%Rt) encontram-se com
alta correlao para mesmas temperaturas, bem como pde-se observar
tambm um agrupamento para as variveis de tenso ruptura por flexo
(TRF) para as trs temperaturas de 1.020C, 1.070C e 1.120C. Isto se deve
ao fato de ocorrer um intercrescimento de fases neoformadas aps cada
temperatura.
Para as propriedades de absoro de gua (AA), porosidade aparente
(PA) e perda ao fogo (%PF) foi possvel perceber um agrupamento bem
evidente, com uma exceo. A massa especfica aparente (MEA) e a massa
especfica aparente da parte slida (MEAS) no formam nenhum agrupamento
evidente, por serem caractersticas bastante peculiares do material.
Os Autores perceberam que dois grandes agrupamentos presentes: o
primeiro com AA, PA e %PF e o segundo com %Rq, %Rt e TRF. Notaram que
48
o primeiro parece estar relacionado com propriedades da distribuio
granulomtrica e o segundo, respectivamente, diz mais respeito composio
qumica do material (ligaes e valncia).
Mtodo WPGMA
V
a
r
i

v
e
i
s
Coeficiente de Correlao de Pearson
%PF1020
%PF1070
AA1020
AA1070
PA1070
AA1120
PA1120
%PF1120
MEAS1120
PA1020
MEAS1020
MEA1020
MEA1070
TRF1020
TRF1070
TRF1120
%Rq1020
%Rt1020
%Rq1070
%Rt1070
%Rq1120
%Rt1120
MEA1120
MEAS1070
-0,2 0 0,2 0,4 0,6 0,8 1

Figura 4.6.: Anlise de Agrupamentos entre as variveis (modo R)


A anlise de agrupamentos mostrou que as amostras 5aJ e 5bJ
possuem o mesmo comportamento, o que esperado por serem retiradas do
mesmo nvel.
As amostras 1J e 2J, isto , retiradas dos nveis mais superiores, so
bem distintos das outras. O material dos dois primeiros nveis no deve ser
tratado da mesma forma que o material do nvel 3 pela indstria ceramista, o
que a prtica atual. Hoje a empresa faz a blendagem usando os nveis 1, 2 e
3 como elemento inerte (saibro), adicionado ao material dos nveis 4 e 6 da
base. As propores so distintas conforme os diferentes produtos finais aos
quais se destinam. Varia de 4:5 para a indstria de revestimento e de 3:7 para
a cermica estrutural. A anlise estatstica multivariada aplicada indicou ,
porem, que os nveis 1 e 2 so distintos do nvel 3, sob vrios aspectos que
podem ser verificados nas suas caractersticas fsicas e de comportamento
cermico.
49

BIBLIOGRAFIA
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2
nd
. ed., John Wiley and
Sons, Inc.
EVERITT, B. (1980) Cluster Analysis: 2
nd
ed., Gower Publishing Co.

GORDON, A. D. (1981) Classification: Chapman and Hall

GREIGH-SMITH, P. (1983) Quantitative Plant Ecology: University of California Press,
Berkeley

MONTEIRO, R. C.; BERNARDES, E.V.; MASSON, M.R. & LANDIM, P.M.B. (2000)
Anlise estatstica multivariada para materiais cermicos: VIII
Simp.Quant.Geocincias, Bol.Res. Expandidos, 163-166

MVPS/Plus (1998) Multi-Variate Statistical Pacckage, version 3.1.: Kovach
Computing Services

PIELOU, E.C. (1984) The Interpretation of Ecological Data: Wiley-Interscience

PRENTICE, I.C. (1980) Multidimensional scaling as a research tool in Quaternary
palybology: A review of theory and methods: Review of Paleobotany & Palynology,
31:71-104

SNEATH, D. H. & SOKAL, R. R. (1973) Numerical Taxonomy: W. H. Freeman & Co.


50

5. ANLISE DAS COMPONENTES PRINCIPAIS

o mais antigo mtodo de ordenao, o mais conhecido e com mais
exemplos de aplicao em Geologia. A anlise das componentes principais
nada mais que o clculo dos autovalores e correspondentes autovetores de
uma matriz de varincias-covarincias ou de uma matriz de coeficientes de
correlao entre variveis. Quando as variveis, devido escalas diferentes
de mensuraes empregadas, no podem ser diretamente comparadas, torna-
se necessrio preliminarmente a padronizao, de modo que as variveis
transformadas passem a ter mdia zero e varincia unitria, o que
conseguido pela transformao "z". Nesses casos, de variaveis padronizadas,
a matrizes de varincias-covarincias e de coeficientes de correlao tornam-
se idnticas. Como tal padronizao acarreta uma forte influncia na estrutura
da matriz de varincias-covarincias e, consequentemente, nos resultados da
anlise, a sua utilizao deve ser criteriosa levando sempre em conta a
natureza dos dados geolgicos em estudo e o enfoque que se pretende dar.
A anlise das componentes principais no sinnimo de analise fatorial
ou anlise dos fatores e essa confuso terminolgica deve ser evitada. A
primeira anlise consiste numa transformao linear de "m" variveis originais
em "m" novas variveis, de tal modo que a primeira nova varivel computada
seja responsvel pela maior variao possvel existente no conjunto de dados,
a segunda pela maior variao possvel restante, e assim por diante at que
toda a variao do conjunto tenha sido explicada. Na anlise fatorial supe-se
que as relaes existentes dentro de um conjunto de "m" variveis seja o
reflexo das correlaes de cada uma dessas variveis com "p" fatores,
mutuamente no correlacionveis entre si, sendo "p" menor que "m". O
extremo cuidado que se deve ter com relao especificao do nmero e,
principalmente, do significado dos "p" fatores que emergem a partir dessa
anlise. Ver a respeito Jreskog, Klovan e Reyment (1976) e Reyment e
Jreskog (1996)
A anlise das componentes principais , portanto, uma tcnica de
transformao de variveis. Se cada varivel medida pode ser considerada
como um eixo de variabilidade, estando usualmente correlacionada com outras
variveis, esta anlise transforma os dados de tal modo a descrever a mesma
51
variabilidade total existente, com o mesmo nmero de eixos originais, porm
no mais correlacionados entre si. Graficamente pode ser descrita como a
rotao de pontos existentes num espao multidimensional originando eixos,
ou componentes principais, que dispostos num espao a duas dimenses
representem variabilidade suficiente que possa indicar algum padro a ser
interpretado.
A anlise das componentes principais inicia-se com o calculo dos
autovalores e correspondentes autovetores de uma matriz de variancias-
covariancias ou de correlaes entre variveis e tal procedimento conhecido
como modo R. O primeiro autovalor a ser determinado correspondera maior
porcentagem da variabilidade total presente e assim sucessivamente.
Geralmente os dois ou tres primeiros autovetores encontrados explicaro a
maior parte da variabilidade presente. Quando o primeiro autovetor j explica
90 a 95% da variabilidade isso
deve ser encarado com cuidado e verificado se no esto presentes variaveis
com valores de magnitudes muito maiores que as demais.
Os autovetores correspondem s componentes principais e so o
resultado do carregamento das variaveis originais em cada um deles. Tais
carregamentos podem ser considerados como uma medida da relativa
importncia de cada varivel em relao s componentes principais e os
respectivos sinais, se positivos ou negativos, indicam relaes diertamente e
inversamente proporcionais.
A matriz de carregamentos de cada variavel nas componentes principais
ao ser multiplicada pela matriz original de dados fornecera a matriz de
contagens (scores) de cada caso em relao s componentes principais. Esses
valores podero ento ser dispostos num diagrama de disperso, em que os
eixos so as duas componentes mais importantes, e mostrar o relacionamento
entre os casos condicionados pelas variaveis medidas.
A primeira matriz obtida, resultado das interrelaes entre variveis pode
ser interpretada como um procedimento estatstico no qual os dados seriam
amostras de populaes multidimensionais. J a segunda matriz, que
apresenta as interrelaes entre casos ou amostras, no sentido geolgico, no
so usualmente passveis de serem submetidas a testes estatsticos.
52

5.1. Seqncia de clculos
Se A for uma matriz simtrica de varincias e covarincias, de
dimenses pxp, com termos a
ij
, de onde os autovalores e os autovetores sero
extrados, V
i
o isimo autovetor, cujos termos so v
ij
, e
i
o isimo autovalor,
tal relao pode ser expressa por
( ) , A I V
i i
= 0

onde I a matriz de identidade.
Alternativamente a relao acima pode ser escrita por
AV V
i i i
= , ou, [ ][ ] [ ][ ] A V V = , onde
[V] uma matriz , p x p, de todos os autovetores e
[] uma matriz, p x p, com os autovalores
i
na diagonas principal.
Multiplicando ambos os lados da equao pela transposta de V, V.
[ ] [ ][ ][ ]' A V V =
A soma dos autovalores igual soma dos termos da diagonal em [A],
ou seja, a soma das varincias
=
i ii
a ,
e por definio
1 2
...
p

Resolvendo a equao acima para , as razes determinadas sero os
autovalores. Encontrados os autovalores, substituindo-os nas equaes
simultneas e resolvendo-as, obtm-se para cada autovalor autovetores
correspondentes, ou seja, as componentes principais.
Pode-se definir a varincia total existente em um conjunto de dados
multivariados pela soma das varincias de cada uma das variveis. Numa
matriz de varincias-covarincias essas varincias individuais constituem os
elementos da diagonal principal. Basta som-los, portanto, encontrando o trao
da matriz para se obter a variabilidade total, e em seguida a contribuio de
cada varivel. A soma dos autovalores de uma matriz, igual ao trao dessa
matriz, representa tambm a variabilidade total da mesma, e a contribuio de
cada autovalor em termos de variabilidade determinada. Ao primeiro
corresponder a maior variabilidade possvel existente, ao segundo a maior
variabilidade possvel restante, e assim por diante.
53
Em termos geomtricos, o primeiro autovalor representa o eixo principal
de maior comprimento; o segundo autovalor, um segundo vetor em
comprimento, situado em posio ortogonal em relao ao primeiro, e assim
sucessivamente.
Os elementos de cada um dos autovetores encontrados, so
simplesmente coeficientes de equaes lineares que transformam os dados
originais em contagens (scores) indicativas do respectivo carregamento sobre
os eixos correspondentes. Desse modo, utilizando-se da multiplicao da
matriz de dados originais pela matriz de autovetores, obtm-se uma matriz de
dados transformados que representam projees dos pontos, num espao
multidimensional, sobre as diversas componentes principais.
[ ] [ ][ ] S X V
R
= , onde
[X] = matriz de dados originais, n x m
[V] = matriz quadrada, m x m, contendo os autovetores
[S
R
] = matriz, n x m, das contagens sobre as componentes principais.

5.2. Exemplo numrico para o clculo de autovalores (eingenvalues) e
autovetores (eingenvectors)

Conjunto de equaes simultneas: [A][X] = [X]
(matriz de coeficientes aijs [A] multiplicada por um vetor de desconhecidos
xis [X] igual a este vetor [X] multiplicado por uma constante ).

Soluo de um conjunto de equaes simultneas: [A][X] = [B],
onde [B] = [X] e ([A] [I])[X] = 0

Clculo das raizes da equao (autovalores) para uma matriz 3 x 3:

(a
11
)x
1
+ a
12
x
2
+ a
13
x
3
= 0
a
21
x
1
+ (a
22
)x
2
+ a
23
x
3
= 0
a
31
x
1
+ a
32
x
2
+ (a
33
)x
3
= 0


matriz de dados:
1 5 8
2 3 7
3 2 4
4 2 1

54
matriz de coeficientes de correlao [A]
000 , 1 913 , 0 980 , 0
913 , 0 000 , 1 820 , 0
980 , 0 820 , 0 000 , 1
= ] A [
(varincia total no sistema: 1 + 1 + 1 = 3)

Clculo dos autovalores:

0 =
000 , 1 913 , 0 980 , 0
913 , 0 000 , 1 820 , 0
980 , 0 820 , 0 000 , 1
= ] I [ ] A [

(1,000 - )(1,000 - )(1,000 - ) + (0,820)(- 0,913)(- 0,980) +
(- 0,980)(0,820)(- 0,913) - (- 0,980)(1,000 - )(- 0,980) -
(1,000 - )(- 0,913)(- 0,913) - (0,820)(0,820)(1,000 - ) =
( - 2,810)( - 0,188)( - 0,002)
autovalores: 1 = 2,810; 2 = 0,188; 3 = 0,002 (soma = 3)

% da varincia total explicada por cada autovalor:
1 = (2,810/3)*100 = 93,66
2 = (0,188/3)*100 = 6,27
3 = (0,002/3)*100 = 0,07

Clculo dos autovetores:
Componentes do autovetor V1:
(1,000 - 2,810)X1 + 0,820X2 - 0,980X3 = 0
0,820 - (1,000 - 2,810)X2 - 0,913X3 = 0
-0,980X1 - 0,913X2 - (1,000 - 2,810)X3 = 0

X1 = - 1,000 X2 = - 0,974 X3 = 1,032
V1 = - 1,000
- 0,974
1,032
Padronizao do autovetor V1 para o tamanhao unitrio
55
Q = -1
2
+ (-0,974)
2
+ (1,032)
2
= 3,012
Q = 1,735
V
n
1 = -1/1,735 = -0,58
V
n
1 = - 0,974/1,735 = - 0,56
V
n
1 = 1,032/1,734 = 0,59

Componentes do autovetor V2:
(1,000 0,188)X1 + 0,820X2 - 0,980X3 = 0
0,820 - (1,000 0,188)X2 - 0,913X3 = 0
-0,980X1 - 0,913X2 - (1,000 0,188)X3 = 0
V
n
2 = -0,60
V
n
2 = 0,79
V
n
2 = 016
Autovetores

F1 F2 F3
Var1 -0.58 -0.60 0.56
Var2 -0.56 0.79 0.26
Var3 0.59 0.16 0.79


Factor loadings (carregamento das variveis nas componentes
principais)
) dente correspon autovalor o padronizad autovetor ( )

F1 F2 F3
Var1 -0.97 -0.26 0.03
Var2 -0.94 0.34 0.01
Var3 1.00 0.07 0.04


56






1 5 8
2 3 7
3 2 4
4 2 1
*
79 , 0 16 , 0 59 , 0
26 , 0 79 , 0 56 , 0
56 , 0 60 , 0 58 , 0
= factor scores




F1 F2 F3
Obs1 2.10 0.45 0.03
Obs2 0.93 -0.35 -0.07
Obs3 -0.69 -0.51 0.06
Obs4 -2.34 0.41 -0.02


Variables (axes F1 and F2: 100.00 %)
Var1
Var2
Var3
-1
-0.5
0
0.5
1
-1 -0.5 0 0.5 1
-- axis F1 (94.00 %) -->
57
Observations (axes F1 and F2: 99.93 %)
A4
A3
A2
A1
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
- - axis F1 ( 93.66 %) - - >










Biplot (axes F1 and F2: 99.93 %)
A4
A3
A2
A1
V1
V2
V3
-1.5
-1
-0.5
0
0.5
1
1.5
-1.5 -1 -0.5 0 0.5 1 1.5
- - axis F1 ( 93.66 %) - - >



58
5.3. Anlise das Coordenadas Principais
A Anlise das Coordenadas Principais pode ser entendida como um
caso mais geral da Anlise das Componentes Principais. Enquanto esta utiliza
matrizes de varincias-covarincias ou de correlaes aquela pode usar uma
variedade de diferentes medidas de distncia ou de similaridade. Essas
medidas so tomadas diretamente entre os especimes, no chamado modo Q,
e no entre variveis e os autovetores resultantes representam os scores
para os espcimes. Fornece, assim, uma ordenao direta entre casos e
muito til nas situaes quando se dispe de uma matriz de dados com mais
variveis do que espcimes. Nessa anlise, porem, no so fornecidos
loadingspara as variveis. Recomenda-se o trabalho de Gower (1966) para o
detalhamento desta anlise.
A maior vantagem no uso da Anlise das Coordenadas Principais que
diversas categorias de medidas de distncia ou de sililaridade podem ser
usadas. Por exemplo, se os dados a serem analisados forem uma mistura de
valores contnuos e medies binrias, o coeficiente geral de similaridade de
Gower pode ser aplicado, pois este um coeficiente de similaridade mtrico.
Distncias alternativas, como a Manhattan mtrica podem tambem ser
analisadas. A utilizao da distncia euclidiana para esta anlise fornece o
mesmo resultado que uma anlise das componentes principais no modo Q.

Coeficiente de similaridade geral de Gower

( )

=
=
=
n
k
ijk
n
k
ijk ijk
ij
w
s w
GGSc
1
1

onde:
( ) k range
x x
s
jk ik
ijk

=1 , para dados quantitativos



= 1 para comparao de dados binrios ou multiestados
= 0 para os demais casos
W
ijk
= 0 para comparaes negativas de dados binrios
= 1 para todas as outras situaes
59
Distncia mtrica de Manhattan:
MMd
ij
= |x
ik
x
jk
|,
onde i e j representam duas linhas (casos ou espcimes) de uma
matriz de dados e k representa as colunas (variveis) e n nmero total de
variaveis:

A anlise das coordenadas principais , todavia, restrita para o caso em
que as distncias ou similaridades so mtricas. Para uma medida ser
considerada mtrica tem que obedecer certos pressupostos matemticos,
como o poder ser visualizada de um modo grfico. Assim as distncias entre
tres pontos deve obedecer aos vertices de um tringulo. Isso significa que a
distncia entre dois dos pontos, ou seja um dos lados do tringulo, deve ser
sempre menor que as outras duas distncias. Isso nem sempre ocorre como,
por exemplo, num conjunto de coeficientes de correlao se os valores forem
tratados como distncias no sera possvel escolher tres entre eles para
traar um tringulo.

5.4. Mtodos robustos para anlise das componentes principais
O objetivo de qualquer anlise estatsitica, inclusive a multidimensional,
inferir propriedades da populao a partir de amostras estudadas. Valores
anmalos (outliers) presentes podem, porem, levar concluses errneas e
da o interesse em detecta-los. A anlise das componentes principais, por se
basear em estimativas de disperso por quadrados mnimos, no capaz e por
isso a necessidade de mtodos robustos. Exemplo disso apresentado por
Zhou (1989) que discute a aplicao de tres opes de metodos robustos,
todas elas calcadas no uso da distncia de Mahalanobis. Esse trabalho
acompanhado por um programa, ROPCA, escrito em FORTRAN e disponvel
para acesso e carregamento.
Nesse trabalho apresentado como exemplo de matriz de dados a
composio mineral de uma rocha artificial, denominada hongito por Aitchison
(1986), consituida por 25 espcimes e 5 variveis. A essa matriz foram
adicionados dois vaores anmalos, com altos valores na 4

e 5

variveis e
baixos valores na 1

varivel.

60

n V1 V2 V3 V4 V5
01 4880.0 3170.0 380.0 640.0 930.0
02 4820.0 2380.0 900.0 920.0 980.0
03 3700.0 910.0 3420.0 950.0 1020.0
04 5090.0 2380.0 720.0 1010.0 800.0
05 4420.0 3830.0 290.0 770.0 690.0
06 5230.0 2620.0 420.0 1250.0 480.0
07 4460.0 3300.0 460.0 1220.0 560.0
08 3460.0 520.0 4290.0 960.0 770.0
09 4120.0 1170.0 2670.0 960.0 1080.0
10 4260.0 4660.0 70.0 560.0 450.0
11 4990.0 1950.0 1140.0 950.0 970.0
12 4520.0 3730.0 270.0 550.0 930.0
13 3270.0 850.0 3890.0 800.0 1190.0
14 4140.0 1290.0 2340.0 1580.0 650.0
15 4620.0 1750.0 1580.0 830.0 1220.0
16 3230.0 730.0 4090.0 1290.0 660.0
17 4320.0 4430.0 100.0 780.0 370.0
18 4950.0 3230.0 310.0 870.0 630.0
19 4230.0 1580.0 2040.0 830.0 1320.0
20 4460.0 1150.0 2380.0 1160.0 850.0
21 4580.0 1660.0 1680.0 1200.0 880.0
22 4990.0 2500.0 680.0 1090.0 740.0
23 4860.0 3400.0 250.0 940.0 550.0
24 4550.0 1660.0 1760.0 960.0 1070.0
25 4590.0 2490.0 970.0 980.0 970.0
26 3130.0 2944.0 1068.0 1526.0 1332.0
27 3012.0 1200.0 1232.0 2051.0 2505.0




Na Figura 5.1. esto dois diagramas de eixos ortogonais mostrando o
resultado da anlise das componentes principais aplicada amostra de hongito
com 25 valores e tambm mesma amostra acrescida de mais dois valores
anmalos. Pode-se constatar que no h destaque para esses espcimes,
identificados como 26 e 27.

61



Figura 5.1.: Anlise das componentes principais


A aplicao, porem, da anlise das coordenadas principais, que no
um mtodo robusto, mas usa o modo Q de anlise e a distncia euclidiana
padronizada, revela a presena em destaque dos espcimes 26 e 27


62

Distncia euclidiana padronizada

=
|
|
.
|

\
|
=
n
k k
jk ik
ij
sd
x x
StEd
1

onde sd
k
= desvio padro de todos os elementos de k



Figura 5.2. Anlise das coordenadas principais












63



BIBLIOGRAFIA
AITCHISON, J. (1986) The statistical analysis of compositional data: Chapman & Hall
GOWER, J. C. (1966) Some distance properties of latent root and vector methods
used in multivariate methods: Biometrika, 55: 325-338
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor
analysis: Elsevier.

REYMENT, R. A. & JRESKOG, K. G. (1996) Applied Factor Analysis in the Natural
Sciences: Cambridge University Press, second printing

ZHOU, D. (1989) ROPCA: A FORTRAN Program for Robust Principal Components
Analysis: Computers & Geosciences, 15:59-78


64

6. ANLISE FATORIAL

Diferentemente da anlise das componentes principais, que uma
manipulao matemtica, a anlise dos fatores pode ser considerada como
uma tcnica estatstica. Importante salientar que quando o mtodo foi
estabelecido por psiclogos, interessados em testes de inteligncia, a condio
fundamental era que o nmero de fatores "p" a se determinar, deveria ser
conhecido "a priori" antes de se efetuar a anlise. Em Geologia dificilmente
essa condio preenchida, pois geralmente os "fatores geolgicos" so
estabelecidos em funo dos resultados obtidos, o que torna algumas vezes
os resultados questionveis.
O modelo da anlise fatorial pode ser expresso por:
X a f e
j
r
p
jr r j
= +
=1
, onde
X
j
= varivel original, existindo "m" x
j

p = nmero "especificado" de fatores
a
jr
= coeficiente que representa o carregamento da j'sima varivel sobre o
r'simo fator
f
r
= r'simo fator
e
j
= variao casual nica relativa a varivel original X
j

As variveis, expressas em termos de vetores num sistema de
coordenadas ortogonais, em que o comprimento representa a magnitude,
agrupar-se-o conforme o relacionamento entre si. Por esses agrupamentos de
vetores podero passar eixos, denominados fatores, que acusaro, pelo valor
da projeo dos vetores sobre os eixos, a carga fatorial (factor loading) das
variveis sobre si. Esses fatores representam o nmero mnimo de causas que
condicionam um mximo de variabilidade existente. A comunalidade
(communallity), h, isto , a soma dos quadrados das cargas fatoriais das
variveis sobre cada fator indica a eficincia dos mesmos na explicao da
variabilidade total.
Os fatores so encontrados fazendo com que o primeiro eixo esteja em
tal posio que a soma dos quadrados dos pesos fatoriais em relao a ele
seja maximizada, o que equivale a coloc-lo paralelamente ao principal
65
agrupamento de vetores. O segundo eixo colocado ortogonalmente, de modo
que tambm seja maximizada a soma de quadrados dos pesos fatoriais para
este segundo eixo, e assim por diante quanto aos demais fatores.
Uma das dificuldades resultantes deste procedimento que o padro de
carregamento para cada componente pode no fornecer dimenses facilmente
interpretveis. Por exemplo, em uma matriz de coeficientes de correlao em
que nenhum dos coeficientes particularmente alto, o padro de carregamento
que pode ocorrer com respeito ao primeiro fator pode ser da mesma ordem
relativa de magnitude que o existente em relao ao segundo fator, ao terceiro
fator, etc. Haver necessidade , ento, de uma rotao dos eixos fatoriais. A
finalidade dessa rotao maximizar colocando os eixos fatoriais numa nica
posio tal que cada fator possa ser interpretado pelos maiores carregamentos
possveis relacionados com o menor nmero de variveis possvel.

6.1. Anlise fatorial pelo modo R

Quando se esta interessado no relacionamento entre variveis, o clculo
dos autovalores e autovetores feito a partir de uma matriz padronizada de
varincias-covarincias, isto , uma matriz de coeficientes de correlao entre
p variveis, tendo todas o mesmo peso.
Os autovetores so calculados de tal modo a definir m vetores com
tamanho unitrio. Isso conseguido multiplicando cada elemento do autovetor
normalizado pela raiz quadrada do correspondente autovalor. O resultado um
fator, ou seja, um vetor constitudo por cargas fatoriais.
A matriz de varincias e covarincias observadas, [S
2
], igual ao
produto da matriz de carregamentos fatoriais (factor loading) [A
R
], de
dimenses m x p, multiplicada pelo seu transposto, mais uma matriz diagonal
de varincias nicas, [var E
jj
]
[ ] [ ] . [ ]' [var ] S A A E
R R
ii
2
= +
Como na anlise fatorial p < m, a varincia nas m variveis , portanto,
derivada dos p fatores, porm a contribuio feita por fontes nicas que
afetam independentemente as m variveis originais. Esses p fatores
66
subjacentes so conhecidos como fatores comuns e resumem a contribuio
independente como um nico fator.
Deve ser notado que p dever ser conhecido previamente anlise e isso
implica numa restrio. Caso p no seja especificado a partio de variveis
entre os fatores comuns e o fator nico torna-se indeterminada.
Os autovalores e, consequentemente, os fatores, representam a
proporo da varincia total explicada pelo respectivo autovetor e cada carga
fatorial proporcional raiz quadrada da quantia de varincia atribuda pela
respectiva varivel ao fator.
As comunalidades (h
j
2
) indicam quanto da variabilidade total est sendo
explicada pelo conjunto de fatores.
Para que os "p" fatores ortogonais situados no espao "m" dimensional
sejam mais facilmente entendidos necessrio que estejam em tal posio, de
modo que as projees de cada varivel sobre o eixo fatorial, situem-se o
melhor possvel, seja junto a extremidade, seja junto origem. Em outras
palavras, haver necessidade de um critrio de maximizao da varincia dos
carregamentos sobre os fatores, o que conseguido pela rotao dos eixos
fatoriais.

( )
s
p a h a h
p
k
j i
m
jp j
j i
m
jp j
2
2 2
2
2 2
2
2
=

|
\

|
.
|
= =
/ /

s
k
2
= varincia das cargas fatoriais
p = nmero de fatores
m = nmero de variveis originais
a
jp
= carregamento da varivel j no fator p
h
j
2
= comunidade da jsima varivel
A quantidade que se deseja maximizar :
V =
= k
p
k
s
1
2

Finalmente, aps encontrada a matriz fatorial rotada se a mesma for
multiplicada pela matriz inicial de dados obtem-se uma matriz dos "factor
score". Esses factor score representam estimaes das contribuies dos
vrios fatores cada observao original e podem ser utilizados na
67
classificao de amostras. Maiores detalhes podem ser encontrados em Davis
(1986) ou Reyment e Jreskog (1993)

6.2. Anlise fatorial pelo modo Q

Quando se est interessado no relacionamento entre amostras, utiliza-se
o modo Q de anlise de fatores, a qual parte de uma matriz inicial de
coeficientes de similaridade entre amostras. O coeficiente de similaridade mais
usado o coeficiente cosseno-teta

Cos
X jk
X X
ij
k
m
ik
k
m
ik
k
m
jk
=


=
= =
1
1
2
1
2

Se as "m" variveis originais forem normalizadas, de modo a terem
mdia zero e varincia 1.0, haver uma identidade entre valores do coeficiente
cosseno-teta e do coeficiente de correlao.
O propsito classificatrio do modo Q o mesmo da anlise de
agrupamentos, porm de muito mais difcil manuseio e muito mais
dispendioso quanto ao tempo de computao. Por isso se o objeto de uma
anlise a classificao de amostras em grupos, deve-se utilizar ou da anlise
de agrupamentos ou dos "factor score" obtidos pela anlise fatorial, segundo o
modo R.
Um outro procedimento que procura tambem determinar se uma coleo
de observaes multivariadas representam uma amostra de uma nica
populao ou uma mistura de diferentes populaes a Anlise das
Coordenadas Principais. Para tanto recomenda-se o trabalho de Gower
(1966) para o detalhamento desta anlise, alem de Jreskog, Klovan &
Reyment (1976) e Reyment, Blackith & Campbell (1984).






68


6.3. Exemplo numrico

matriz de dados = [ ] X
ij
=

(
(
(
(
1 2 4
4 2 3
7 3 2
8 5 1


matriz de coeficientes de correlao = [ ]
, , ,
, , ,
, , ,
R =

(
(
(
1 000 0 820 0 980
0 820 1 000 0 913
0 980 0 913 1 000

[A][X] = [X]
([A] - [I]) [X] = 0

Clculo das raizes da equao caracterstica (autovalores):
(1,000 - )(1,000 - )(1,000 - ) + (0,820)(- 0,913)(- 0,980) +
(- 0,980)(0,820)(- 0,913) - (- 0,980)(1,000 - )(- 0,980) -
(1,000 - )(- 0,913)(- 0,913) - (0,820)(0,820)(1,000 - ) =
( - 2,810)( - 0,188)( - 0,002)

autovalores: 1 = 2,810
2 = 0,188
3 = 0,002

Componentes do autovetor V1:
(1,000 - 2,810)X1 + 0,820X2 - 0,980X3 = 0
0,820 - (1,000 - 2,810)X2 - 0,913X3 = 0
-0,980X1 - 0,913X2 - (1,000 - 2,810)X3 = 0

X1 = 1,000 e X2 = 0,974; X3 = - 1,034

V1 = 1,000
69
0,974
- 1,032

Normalizao dos autovetores, Vi, para tamanho unitrio:
Vn1 = 1/ Q; 0,974/Q; - 1,032/Q = 0,576; 0,561; - 0,595
(Q = 1 + (0,974)2 + (-1,032)2 = 3,012; Q = 1,735)
Vn2 = - 0,597; 0,785; 0,162

matriz fatorial inicial: autovetor normalisado x (autovalor correspondente)
Fatores
F
1
F
2
X1 0,966 - 0,259
X2 0,940 0,340
X3 - 0,997 0,070
rotao dos fatores (critrio varimax):
ngulo de rotao = ?, para variavel j e fatores p e q

tan
(
4


=
4 2XjpXjq(X2jp - X2pq) - 4 (X2jp - X2jq) XjpXjq / n
X2jp - X2jq)2 - (2XjpXpq)2 -[( 2XjpX2jq)2 - (2XjpXpq)2] / n


tan 4 = [D - 2AB /n]/[C-(A2 - B2)/n] = - 0,1592/- 0,6555 = 0,2429

Uj = X2jp - X2jq Vj = 2XjpXjq

A = Uj = 2,6222 A2 = 6,8789
B = Vj = - 0,0001 B2 = 0,0000
C = (U2j - V2j) = 1,6365
D = 2UjVj = - 0,1594

arctan 0,2429 = -166 21 = 4; = 41 17
sen = - 0,6598
cos = 0,7515

70

[ ]
, ,
, ,
T =

(
0 7515 0 6598
0 6598 0 7515


Xj1 = T11X11 + T12X12 = (0,9656)(0,715) + (- 0,2590)(- 0,6598) = 0,894

matriz fatorial rotada:
Fatores
F
1
F
2

X1 0,894 0,447
X2 0,477 0,879
X3 - 0,792 - 0,609







Figura 6.1. Geometria da rotao da matriz fatorial inicial



71


Figura 6.2. Rotao varimax da matriz fatorial inicial


6.4. Anlise das correspondncias (Anlise das associaes)
Tanto a Anlise das Componentes Principais como a Anlise Fatorial
exigem dados mensurados em escala numrica contnua e no so, portanto,
apropriada para dados nominais, tais como contagem de nmeros de diversos
tipos de fsseis em um nvel estratigrficdo, nmero de fraturas com diferentes
orientaes num macio rochoso ou dados do tipo presente-ausente. Nesses
casos em que os dados podem ser agrupados em categorias, os autovalores
so extrados a partir de tabelas de contingncias e a tcnica conhecida
como anlise das correspondncias, traduo do francs Analyse des
Correspondances (Benzcri et al., 1980). Talvez o termo que melhor descreva
o mtodo seria Anlise das Associaes (entre variveis e espcimes). Na
tabela de contingncias os valores originais so transformados de modo a
poder ser interpretados como probabilidades condicionais. Por causa da
natureza dessa transformao as relaes entre colunas e linhas da tabela
transformada so as mesmas que aquelas da matriz original da dados. Isso
significa que as solues para o modo Q e para o modo R so equivalentes e
desse modo, o produto final mostra num espao bidimensional, definido pelos
72
dois mais importantes autovetores, a distribuio simultnea tanto das
amostras como das variveis.
Este mtodo, porem, bastante suceptvel presena de valores
anmalos (outliers). Quando presente valores muito diferentes dos demais, os
primeiros eixos fatoriais apresentaro esses valores acumulados em uma das
extremidades do eixo e os demais agrupados na outra. Esse problema pode
ser contornado com a eliminao dos valores anmalos ou ento, se mantidos,
ignorar o primeiro eixo e verificar os eixos subsequentes.
Ver aplicaes dessa metodologia em Geologia em Teil (1975), Teil e
Chemine (1975) e David, Dagbert e Beaunchemin (1977). Em Carr (1990)
apresentado um programa em FORTRAN-77 para o clculo desta anlise.

6.4.1. Seqncia de clculos
Inicialmente os elementos da matriz [X] de dados originais, de
dimenses n x m, so convetertidos em probabilidades conjuntas didivindo
cada elemento pelo total geral x
ij

[ ] [ ] B
x
X
ij
=

1

Em seguida definida uma matriz quadrada [M] com dimenso m x m,
que contm os totais das colunas de [B] arranjados em ordem ao longo da
diagonal principal e com zeros em todas as demais posies. Tambm
definida uma matriz [N], com dimenses n x n que contm os totais das linhas
na diagonal principal e zeros nas demais posies. Essas duas matrizes
contm as probabilidades marginais das colunas e das linhas e so usadas
para transformar [B].
[ ] [ ] [ ] [ ]
/ /
W N B M =
1 2 1 2

A matriz [W], com dimenses n x m, contm os elementos transformados
w
ij
que correspondem a cada elemento original x
ij
. A matriz de produtos-
cruzados entre colunas
[ ] [ ]' [ ] R W W =
E, de mesmo modo, a matriz de produtos-cruzados entre linhas
[ ] [ ] [ ] ' Q W W =
73
Os autovalores de [R] e de [Q] so idnticos, exceto que [Q] tem (n-m)
autovalores adicionais, todos com o valor zero. Os autovetores de [R] podem
ser convertidos nos fatores de correspondncia (=associao) multiplicando
cada vetor pelo seu valor singular correspondente, que a raiz quadrada do
autovalor correspondente
Carregamentos no modo R = . autovetores de modo R
Em notao matricial os valores singulares podem ser pensados como
presentes ao longo da diagonal de uma matriz m x m, [], sendo zero os
demais elementos. Os autovalores de [R] formam as colunas de uma matriz m
x m, [U]. A equao matricial para determinar os carregamentos no modo R
ento:
[ ] [ ] [ ] A U
R
=
Os scores de cada n observao sobre os m fatores de
correspondncias so
[ ] [ ] [ ] S W A
R R
=
Para o caso de autovalores de [Q], sendo [V], de dimenses n x n, a
matriz que contm n autovetores de [Q], de modo idntico obtm-se
[ ] [ ] [ ] A V
Q
= e [ ] [ ]' [ ] S W A
Q R
=
H uma relao direta entre as solues para o modo R e para o modo
Q:
[ ] [ ] [ ] [ ] A W A
Q R
=

1

= =

[ ] [ ] S
R

1

O carregamento nos fatores de correspondncias no modo Q igual aos
scores de correspondncias no modo R, dividido pelos valores singulares
apropriados. Pode-se obter uma soluo para o modo Q resolvendo-o no modo
R, o que uma vantagem em termos computacionais, pois normalmente [R]
tem dimenses menores que [Q].
A conseqncia direta disso que se pode plotar tanto amostras como
variveis no mesmo espao, usando os mesmos eixos. A obteno de mesmas
escalas tanto para R como para Q obtida por
[
$
] [ ] [ ]
/
A M A
R R
=
1 2

[
$
] [ ] [ ]
/
A N A
Q Q
=
1 2

74

A apresentao de resultados simultneos, referentes variveis e
amostras, num mesmo diagrama de disperso bastante til e de fcil
interpretao, como visto. Alem desta anlise das associaes, pode tambem
ser mencionado o mtodo proposto por Gabriel (1971) que aborda de um modo
mais geral o relacionamento entre linhas e colunas de uma tabela de
contigncia. Detalhes podem ser encontrados em Gordon (1981), Jackson
(1991), Jolliffe (1986) e Gabriel (1995,a,b).

6.5. Anlise fatorial R-Q simultnea
Embora o teorema de Eckart-Young estabelea ser possvel extrair
fatores simultneamente pelos modos R e Q, na prtica os resultados podem
no serem os mesmos devido a maneira como os dados so transformados
antes do processo fatorial. O escalonamento de valores condiciona as medidas
de similaridade e, desse modo, a natureza da soluo fatorial.
No modo R a soluo fatorial inicia-se pela matriz simtrica dos menores
produtos [W][W], enquanto no modo Q a soluo inicia-se pela matriz simtrica
dos maiores produtos [W][W]. Isso significa que os procedimentos de
escalonamento de valores no so os mesmos para originar [W] a partir dos
dados originais [X]. Por exemplo, na anlise das componentes principais cada
elemento de [X] dividido pelo desvio padro das colunas para produzir [W].
Na anlise fatorial pelo modo Q ocorre uma padronizao que inclue a diviso
de cada elemento de [X] pela raiz quadrada da soma de quadrados das linhas
para originar [W]. Como a matriz [W] originada pelo modo R no idntida
matriz [W] originada pelo modo Q, tal diferena entre escalas no fornece os
mesmos resultados (Davis, 1986).
A anlise das associaes usa uma matriz simetrica com a mesma
escala de valores para linhas e colunas e procura medidas de similaridade
proporcional entre objetos e variaveis. A similaridade resultante a distncia
2

utilizvel apenas para tabelas de contingncia que estima probabilidades. Uma
tabela de medidas com valores contnuos, porem, tem diferentes propriedades
e necessidade metodologia prpria para tratar simultneamente os objetos e as
variveis, como apresentado por Zhou, Chang e Davis (1983).
75
Segundo esses Autores se os dados forem escalonados de modo que o
produto menor [W][W] seja uma matriz de correlaes e o produto maior
[W][W] uma matriz de distncias euclideanas, o modo R ao ser executado por
uma anlise das componentes principais e o modo Q por uma anlise das
coordenadas principais, os resultados apresentao a mesma configurao
espacial.

6.6. Exemplo
No artigo de Zhou, Chang e Davis (1983) apresentado como exemplo
para a aplicao da anlise R-Q em contraposio anlise das
correspondncias uma matriz de dados retirada de Sherman, Bunker e Bush
(1971). Esses dados provem da rea de Berea, Virginia/EUA, onde um
pequeno, mas altamente radioativo, pluton de quartzo-monzonito (Q) se
intrometeu em clorita-actinolita-xistos (X) e foram cobertos por areias e
cascalhos (A). Um total de 22 amostras foram coletadas e analisadas para U
(partes por milho), Th (ppm) e K (porcentgem). Alem disso foi realizado um
levantamento aereo-radiomtrico (A), com valores medidos em contagem por
segundo, para verificar a relao entre essa coleta e os dados de campo. Os
valores esto na Tabela 6.1. e foram submetidos tanto a anlise R-Q como
anlise das correspondncias.
A soluo pela analise R-Q mostrou correlaes positivas entre as
quatro variaveis consideradas e as amostras distribuiram-se por areas distintas
conforme a litologia, ao longo do fator 1, que correspondeu a 85 da
variabilidade presente. J a anlise das correspondncias revelou um padro
diferente de distribuio, onde a variavel radiomtrica aparece no centro do
diagrama e as amostras esto ai agrupadas independentemente das diferena
litolgicas. Esses resultados so inconsistentes com a realidade geolgica e a
razo para a no deteco esta no fato que as variaveis foram medidas
segundo diferentes ordem de magnitude. A anlise das correspondncias foi
originalmente designada para analisar tablas de contigncias e quando
aplicadas tablas de valores numricos cuidados devem ser tomados para
evitar problemas de escala de mensuraes. Como apresentado no captulo
anterior, Zhou (1989) discute a aplicao de metodos robustos para a anlise
76
R-Q, e nesse trabalho apresentado um programa, ROPCA, escrito em
FORTRAN e disponvel para acesso e carregamento.

n litologia Aero
U
Th
K
1 X 240 0.63 2.05 0.13
2 X 360 2.18 5.31 0.31
3 X 420 2.26 5.61 0.34
4 X 500 1.71 6.44 0.7
5 Q 580 2.38 7.99 1.73
6 Q 700 3.83 8.32 4.26
7 Q 600 3.79 9.46 1.53
8 Q 650 4.09 14.71 3.11
9 Q 770 4.21 12 1.9
10 Q 930 4.72 12.78 2.92
11 Q 1020 6.24 16.31 2.29
12 Q 1000 5.24 14.51 1.88
13 Q 1000 4.73 15.79 4.64
14 Q 1040 4.67 10.3 4.17
15 Q 1150 5.08 13.11 3.97
16 Q 1000 5.27 13.4 4.36
17 Q 960 5.61 10.31 2.05
18 A 420 2.33 6.83 0.47
19 A 370 2.64 9.88 0.58
20 A 400 2.29 6.02 0.34
21 A 480 2.32 6.14 0.32
22 Q 730 5.94 12.86 1.35

Tabela 6.1.: Matriz de dados provenientes da regio de Berea-
Virginia/EUA


Utilisando o pacote MVSP, verso 3.1., obtem-se, com a aplicao da
Anlise das Correspondncias, o diagrama exposto na Figura 6.3, o qual esta
perfeitamente de acordo com o exemplo acima citado.

77

Figura 6.3. Anlise das associaes entre as variveis U, Th, K e
radiometria e as litologias xisto (X), quartzo-monzonito (Q) e areia e cascalho
(A)

Bastando apenas padronizar as variaveis na anlise das componentes
principais , e utilisando o mesmo pacote MVSP, o resultado apresentado
semelhante ao encontrado pelos Autores acima citados (Figura 6.4.).

.

Figura 6.4. Anlise das componentes principais entre as variveis,
padronizadas, U, Th, K e radiometria e as litologias xisto (X), quartzo-
monzonito (Q) e areia e cascalho (A)
78
Bibliografia
BENZCRI, Jean-Paul, & others (1980) - LAnalyse des donnes. Vol. 2, LAnalyse
des correspondances: Dunod, Paris, 628p.
CARR, J.R. (1990) - CORSPOND: a portable FORTRAN-77 program for
correspondence analysis: Computers & Geosciences 16(3):289-307.
DAVID, M.; M., DAGBERT & BEAUCHEMIN, Y. (1977) - Statistical analysis in geology:
Correspondence analysis method: Quart. Colorado Sch. Mines, 7:60p.

GABRIEL, K. R. (1971) The biplot display of matrices with application to principal
cimponents analysis: Biometrica, 58:453-467

GABRIEL, K. R. (1995,a) : Biplot displays of multivatiate categorical data, with
comments on multiple correspondence analysis: Recent Advances in Descriptive
Multivariate Analysis (ed.: W. J. Krzanowski): 190-226, Oxford Science Publ.

GABRIEL, K. R. (1995,B): MANOVA biplots for two-contingency tables: Ibid., 227-268

GORDON, A. D. (1981): Classification: Monographs on Applied Probability and
Statistics, Chapman and Hall

GOWER, J. C. (1966) Some distance properties of latent root and vector methods
used in multivariate methods: Biometrika, 55:325-338

JACKSON, J. E. (1991) A Users Guide to Principal Components: Wiley

JOLLIFFE, I. T. (1986) Principal Components Analysis: Springer Verlag
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor
analysis: Elsevier.
REYMENT, R. A., BLACKITH, R. E. & CAMPBELL, N. A. (1984) Multivariate
Morphometrics: 2d. edition, Academic Press
SHERMAN, K. N., BUNKER, C.M. & BUSH, C. A. (1971) Correlation of uranium,
thorium and potassium with aeroradioactivity in the Berea area, Virginia: Econ.
Geol., 66:302-308
TEIL, H. (1975) - Correspondence factor analysis: An outline of its method: Journ. Intl.
Assoc. Mathematical Geology, 7:3-12.
TEIL, J. & CHEMINE (1975) - Application of correspondence factor analysis to the
study of major and trace elements in the Erta Ale Chain (Afar, Ethiopia): Jour. Intl.
Assoc. Mathematical Geology, 7:13-30.

ZHOU, D. (1989) ROPCA: A FORTRAN Program for Robust Principal Components
Analysis: Computers & Geosciences, 15:59-78
,
ZHOU, D., CHANG, T. & DAVIS, J. C. (1983) Dual Extraction of R-Mode and Q-
Mode Factor Solutions: Math. Geology, 15: 581-606

79

7. ANLISE DISCRIMINANTE


A anlise estatstica multivariada utilizando funes discriminantes foi
inicialmente aplicada para decidir qual de dois grupos pertenceriam
indivduos sobre os quais tinham sido feitas diversas mensuraes. Nessa
anlise, hoje conhecida como anlise discriminante linear, a idia bsica
substituir o conjunto original das diversas mensuraes por um nico valor D
i
,
definido como uma combinao linear delas
D x x x
i i i p p
= + + +
2 2
L
Para fornecer um nico valor os termos so adicionados nessa funo
linear, e esta transformao realizada de tal modo a fornecer a razo mnima
entre a diferena entre pares de mdias multivariadas e a varincia
multivariada dentro dos dois grupos. Conhecido o D
i
, este ser comparado
com um certo D
o
, ou seja, o valor situado ao longo da linha expressa pela
funo discriminante a meio caminho entre os centros de dois grupos, com a
finalidade de verificar a qual deles o indivduo pertence. Tal processo exige,
portanto, um conhecimento "a priori" das relaes existentes entre os grupos
estudados. Isso contrasta com mtodos classificatrios multivariados, como por
exemplo a anlise de agrupamentos ou das componentes principais quando os
grupos constitudos por indivduos similares entre si emergem atravs do
esquema de classificao adotado.
Alm disso, para a aplicao de testes de significncia s funes
discriminantes, os seguintes pressupostos so necessrios:
a) que as observaes em cada grupo tenham sido escolhidas ao acaso;
b) que a probabilidade de um indivduo desconhecido pertencer a um dos
grupos seja a mesma;
c) que as variveis tenham distribuio normal;
d) que as matrizes de varincia de grupos comparados sejam de mesmo
tamanho;
e) que todas as observaes usadas para o clculo das funes discriminantes
tenham sido classificadas sem erro.
80
Nos casos em que as matrizes de varincias e covarincias so
diferentes torna-se necessrio escolher um outro mtodo que absorva tal
diferena, como o procedimento da funo discriminante quadrtica.
Um dos mtodos utilizados para o clculo das funes discriminantes
lineares o da regresso linear, onde a varivel dependente consiste na
diferena entre as mdias multivariadas de dois grupos e as variveis
independentes as variveis e covarincias das varincias em estudo. Ver a
propsito Davis (1986).
A soluo do sistema de equaes lineares resultante pode ser
resolvido, por clculo matricial, a partir de:

| |
| | | |
Vp p Rp
2
=
| |
Vp
2
= matriz, pxp, das varincias e covarincias combinadas das p variveis;
[] = vetor coluna, px1, representando os coeficientes desconhecidos;
[Rp] = vetor coluna, px1, das "p" diferenas entre as mdias das variveis de
dois grupos A e B.
Para a constituio de
| |
Vp
2
, determina-se:
a) inicialmente a matriz de soma de quadrados e produtos cruzados de todas
as "p" variveis, do primeiro grupo
| |
V
a


| |
V
SQX SPX X SPX X
SPX X SQX SPX X
SPX S SPX X SPX
a
P
P
P P P
=

(
(
(
(
(
1
2
1 2 1
1 2 2
2
2
1 2
2
L
L
M
L


onde:
SQX x
x
n
n
i
i
n
i
i
n
1
2
1
2
1
1
1
2
1 =
|
\

|
.
|
|
\

|
.
|
|
|
|

=
=


/
SPX X x x
x x
n
n
i
i
n
i
i
i
n
i
i
n
1 2 1
1
2
1
1
2
1
1 =
|
\

|
.
|
|
|
|

=
= =


( . ) /

81
b) de modo similar determina-se a matriz de somas de quadrados e produtos
cruzados de todas as "p" variveis do segundo grupo [ ] V
b


c) calcula-se, ento, a matriz combinada segundo:

| |
| | | |
V
V V
n n
p
a b
a b
2
2
=
+


Para o clculo de [Rp] encontram-se as diferenas segundo:


| |
Rp
R
R
R
X
X
X
X
X
X
p
a
a
ap
b
b
bp
1
2
1
2
1
2
M

(
(
(
(
(

(
(
(
(

(
(
(
(

Para clculo dos coeficientes p, que iro constituir a equao da funo
discriminante, determina-se o inverso da matriz da varincias e covarincias
combinadas e em seguida multiplica essa matriz pelo vetor de diferena entre
mdias:

| |
| |
| |
p V Rp
p
=

2
1

O valor central do grupo A determinado por

D x x x
a
a a
p
ap = + + +
1
1 2 L

e do grupo B por

D x x x
b
b b
p
bp = + + +
1
1 2 L
O ndice discriminante, D
o
, ou seja, o ponto na linha descrita pela funo
discriminante situado exatamente na metade da distncia entre os centros dos
grupos A e B, encontrado segundo:
D
o
=
+
|
\

|
.
| +
+
|
\

|
.
| + +
+
|
\

|
.
|
1
1 1
2
2 2
2 2 2
X X X X X X a b a b
p
ap bp
L
Para testar a significncia da funo encontrada, ou seja, verificar se os
dois grupos considerados pertencem a uma nica populao ou duas
distintas populaes, calcula-se a distncia entre as duas mdias
82
multivariadas, D D
a b
. Esta medida de distncia conhecida como distncia
generalizada de Mehalanobis, ou D, e mede a separao entre as duas
mdias multivariadas expressa em unidades de varincias combinadas.
D usada na seguinte expresso para ser testada pela distribuio F:

( )
F
n n p
n n p
n n
n n
D
a b
a b
a b
a b
=
+
+
|
\

|
.
|
+
|
\

|
.
|
1
2
2
,
com "p" graus de liberdade para o numerador e " na nb p + 1 " para o
denominador. A hiptese nula a ser testada, estabelece que as duas mdias
multivariadas so iguais, ou que a distncia entre ambos os grupos igual a
zero significando que se trata de um nico grupo.

| |
H Rp ou
o a b
: , = = 0

| |
H Rp
1
0 : >
A contribuio relativa, em percentagem, de cada varivel para o
distanciamento entre os dois grupos fornecida pela expresso:
C
p Rp
D
p
=

2
100 *
C
p
mede apenas a contribuio direta da varivel, sem levar em
considerao o seu inter-relacionamento com as demais existentes.

7.1. Funes discriminantes multigrupos

Quando se trata de discriminar entre mais de dois grupos torna-se
necessrio uma generalizao na metodologia. A anlise discriminante
multigrupos, que utilisa procedimentos combinados da anlise de varincia e
da anlise fatorial, pode, ento, ser utilizada.
A analogia com a anlise de varincia que a matriz inicial de todas as
varincias e covarincias pode ser parcializada entre categorias ou grupos e
verificada a soma total de quadrados, a soma de quadrados entre gupos e a
soma de quadrados dentro dos grupos. Como no caso da anlise de varincia
convencional a soma de quadrados entre grupos [E] mais a soma de
quadrados dentro dos grupos [D] igual soma total de quadrados [T]:
[T] = [E] + [D]
83
Quando a razo [E]/[D] apresentar um valor alto isto significar que as
mdias dos grupos so bem diferentes entre si e os valores dentro de cada
grupo esto bem concentrados ao redor dos respectivos centroides, ou seja, h
uma discriminao significativa entre os grupos. O problema na anlise
discriminante , desse modo, encontrar um conjunto de pesos lineares para as
variveis que tornem essa razo mxima. Se esse conjunto de pesos for o
vetor [A
1
], a anlise discriminante pode ser efetuada ao encontrar os valores
dos elementos de [A
1
] de modo que a expresso
{[A
1
][E] [A
1
]}/{[A
1
][D] [A
1
]}, seja maximizada.
Nessa anlise usualmente especificado a restrio que o denominador
igual a 1
[A
1
][D] [A
1
] = 1.
Obedecida essa restrio a razo maximizada quando [A
1
] for o
autovetor correspondente ao maior autovalor de [D]
-1
[E]. Pode-se em seguida,
como na anlise fatorial, encontrar eixos ortogonais [A
2
], [A
3
], etc., numa
sucesso decrescente de funes discriminantes segundo as quais os grupos
podem ser distintos tanto quanto possvel.
As observaes usadas no clculo das funes discriminantes podem
ser projetadas no espao definido pelos eixos discriminantes. Isto feito
segundo a multiplicao matricial
[Z] = [A][X],
onde [X] a matriz inicial de dados [N x p] e [A] a matriz [p x t] cujas colunas t
so os maiores autovetores a serem usados nas funes discriminantes.
Os centroides dos g grupos podem ser projetados no espao
discriminante por
[Z
M
] = [A
1
] [X
m
k],
onde [X
m
k] contem as mdias de todas as variveis para cada grupo.
Geralmente escolhe-se as duas funes discriminantes de maior peso
para servir como eixos ortogonais para uma distribuio das observaes dos
diversos grupos e os respectivos centrides. Uma observao
multidimensional de origem desconhecida pode ser projetada nesse diagrama
pela sua multiplicao com o transposto de [A] e verificada a sua distncia aos
diversos centrides. Maiores detalhes podem ser vistos em Davis (1986).
84


7.2. Distncia Generalizada D de Mahalanobis
A distncia generalizada D de Mahalanobis tambm pode ser usada
como uma tcnica de comparao quanto separao entre diversos grupos
permitindo avaliar a extenso e a direo dos afastamentos entre os valores
mdios das variveis usadas na discriminao. As diferenas entre cada par de
grupos que esto sendo comparados so assim examinados simultaneamente
atravs das diversas variveis, que podem ser correlacionadas, de modo que a
informao fornecida por uma delas pode no ser independente da fornecida
pelas demais.
O valor numrico da maior separao possvel entre dois grupos
quaisquer chamado Distncia Generalizada entre os grupos e mede, em
escala independente da originalmente utilizada para as vrias variveis, a
clareza das disjuno entre elas.
Assim, o valor da distncia generalizada D ligando dois grupos um
nmero puro, com propriedades da distncia comum, e mede a extenso com
que diferem entre si em tamanho e forma.
A Distncia Generalizada de Mahalanobis entre os grupos i e j
usualmente estimada, segundo Rao (1952) por:

| |
| |
| |
D x x S x x
ij i j i j
2
1
=


onde, x
i
o vetor de mdias do i'simo grupo
x
j
o vetor de mdias do j'simo grupo
[S] a estimativa combinada da matriz de disperso dentro dos grupos

Este mtodo de representao de diferenas entre grupos leva em
conta qualquer correlao que exista entre as variveis usadas e tambm
independente das unidades de medida com que as variveis esto expressas.
Para o clculo da distncia generalizada, por exemplo, usando apenas
duas variveis (V
1
e V
2
), correlacionveis, utiliza-se da expresso:
D R V R
2 1
=

'. .
85
onde R
V V
V V
=

(
11 12
21 22


| |
R V V V V ' , =
11 12 21 22

V
S
v
r
v v s
v
s
v
r
v v s
v
s
v
S
v
=

(
(
(
(
1
2
1 2
1 2
1 2
1 2
2
2
. .
. .

Os resultados dos clculos das distncias generalizadas podem ser
expressos aproximadamente por meio de grficos bidimensionais que
representam a configurao dos grupos considerados no espao
multidimensional das mensuraes.

7.3. Exemplo: Distino entre areias elicas e praias pela anlise discriminante
linear.

Em Sedimentologia ainda bastante comum a utilizao de ndices
baseados em percentis para descrever as caractersticas da distribuio
granulomtrica, pela sua convenincia e simplicidade de clculo. Diversas
crticas tem sido formuladas ao emprego desses ndices pois a sua eficcia
praticamente nula quando da utilizao de modelos estatsticos formais em que
valores amostrais devam estimar parmetros da populao. Ver propsito
Davis e Ehriich (1970). Por outro lado quando colocados num sistema de
coordenadas cartesianas, pares de ndices fornecem separaes ou
agrupamentos de amostras que so empiricamente interpretados como devido
a um controle sedimentar, pois ambientes diversos de sedimentao
conduziriam distribuies granulomtricas diferentes cujos percentis obtidos
forneceriam distintos ndices. Existem diversos trabalhos sobre o assunto na
tentativa de estabelecer um relacionamento entre esses ndices e as
condies de sedimentao (Folk e Ward: 1957; Mason e Folk, 1958;
Friedman, 1961; Shepard e Young, 1961: Passega, 1962; Sahu, 1964; Folk,
1966; Moiola e Weiser, 1968; Visher, 1969).
Entre os vrios ndices propostos os sedimentologistas usam com maior
freqncia aqueles devido Folk e Ward (op.cit). Segundo esse mtodo
obtm-se inicialmente, a partir da curva de freqncia granulomtrica
86
acumulada, em que os intervalos de classes esto na escala phi (Krumbein.
1934), os valores no eixo do x correspondentes aos percentis 5% (x
5
), 16%
(x
16
), 25% (x
25
), 50% (x
50
), 75% (x
75
), 84% (x
84
) e 95% (x
95
). A escala phi uma
transformao segundo a qual em vez de se usar os valores para tamanho dos
gros em mm (x
1
), utiliza-se -log
2x1
.
Em seguida esses valores so combinados de forma a oferecer
estimativas grficas da mdia, desvio padro, assimtrica e curtose da
distribuio de freqncia amostral.
Se esses quatro ndices so os mais aceitos, o mesmo no acontece
sobre a escolha de qual, ou quais, que so os melhores indicadores para
especficos ambientes de sedimentao. Em outras palavras, quais os que
podem ser usados para separar amostras provenientes de diferentes
ambientes de deposio.
Neste caso a tentativa usual e comparar diversos grficos bivariados e
subjetivamente escolher aqueles dois ndices que melhor separem os
conjuntos de amostras considerados.
O problema tanto da discriminao entre ambientes de sedimentao
coma da importncia de cada um dos ndices utilizados para tal discriminao
pode, todavia, ser enfrentado com a utilizao do mtodo multivariado das
funes discriminantes.
Como exemplo disso Landim e Castro (1981) fizeram uma comparao
entre amostras provenientes de ambiente praial com amostras de ambiente
elico utilizando as funes discriminantes. Para a aplicao dessa anlise
foram escolhidos dois trabalhos constantes da literatura:
a) o de Martins (1967) sobre sedimentos no litoral sul riograndenses e
b) o de Landim et alli (1977) sobre sedimentos da Ilha Comprida no
litoral sul paulista.


a) Sedimentos praiais e elicos da plancie costeira do Rio Grande do Sul
(Martins, op.cit).

Nesse trabalho foram coletados 70 amostras provenientes de praia e
100 de duna. Para cada uma dessas amostras o autor obteve, segundo a
87
metodologia citada de Folk e Ward (op.cit), os valores para a mdia, desvio
padro, assimetria e curtose. A funo discriminante encontrada foi:
D M SK K
i z i g
= + 0 79 013 13 96 2154 , , , ,
'

A partir dessa funo foram determinados os seguintes valores:

D
p
= -10.90 (ambiente praial)
D
e
= 15.13 (ambiente elico)
D
o
= -13.02
D
2
= 4.23

Isso significa que amostras que apresentaram um valor calculado D
i

maior que -13,02 indicaram ambiente praial e aqueles com D
i
menor indicaram
ambiente elico. Neste caso a probabilidade de erro foi da ordem de 0,18 para
os dois grupos considerados, isto , entre as 70 amostras elicas estudadas 8
tinham uma maior probabilidade de associao com o ambiente praial e entre
as 109 praial 9 tinham uma maior probabilidade de associao com o
ambiente elico.
F
(calculado)
= 44.28
Como F
(0.05; 4,174)
= 2.45, a hiptese nula de que ambas as mdias
multivariadas fossem iguais, foi rejeitada.
A porcentagem de contribuio direta de cada varivel para a
discriminao entre os dois conjuntos de dados foi
M
z

= 1,88%
= 0,38%
S
k

= 78,13%
K
g

= 19,60%

significando que a varivel que mais contribuiram para a discriminao entre
as amostras dos dois grupos foi a assimetria.



88
b) Sedimentos praiais e elicos da Ilha Comprida, no litoral sul do Estado de
So Paulo (Landim, et al, op.cit).
Nesse trabalho foram coletadas 120 amostras provenientes de dunas e
75 amostras ao longo da linha da mar baixa. Para todas essas amostras
foram tambm obtidos os valores para mdia, desvio padro, assimetria e
curtose normalizada pelo mtodo grfico de Folk e Ward (op.cit.).
Existindo 3 grupos de amostras, os mesmos foram considerados dois a
dois da seguinte maneira:
a) amostras elicas e amostras de praia coletadas ao longo da linha da
mar;
b) amostras elicas e amostras de praia coletadas ao longo da linha de
mar baixa;
c) amostras de praia, mar alta e amostras de praia, mar baixa.
Os resultados foram os seguintes:

a) a funo discriminante encontrada para amostras elicas e amostras de praia
(mar alta), foi
D M k
i z I k g
= + + 7 40 7 67 113 6 75 . . . .
'

A partir dessa funo foram determinados os seguintes valores:
D
o

= 24.565 (ambiente elico)
D
pb

= 21.0065 (ambiente praial, mar alta)
D
o

= 22.815
D
2
= 3.500
A probabilidade de erro foi da ordem de 0.001, isto , entre as 120
amostras elicas estudadas 3 apresentaram valores de D
i
inferiores a 22.815 e
entre as 75 amostras praiais (mar alta) estudadas 27 apresentaram valores de
D
oi
superiores a 22.815 (Fig. 2)
F
(calculado)
= 39.76

Como F
( . ; . )
.
0 05 4 190
2 45 = , a hiptese nula de que ambas as mdias
multivariadas fossem iguais, foi rejeitada.
A porcentagem de contribuio direta de cada varivel para a
discriminao entre os dois conjuntos de dados foi:
89
M
z
= 54.65%

i

= 20.77%
S
k
= 5.46%
K
g
= 19.12%

b) A funo discriminante encontrada para amostras elicas e amostras de praia
(mar baixa), foi
D M S k
i z I k g
= + + 6 68 4384 655 1212 . . . .
'

A partir dessa funo foram determinados os seguintes valores:
D
z
= 19.78 (ambiente elico)
D
pb
= 7.44 (ambiente praial, mar baixa)
D
o
= 13.61
D
2
= 12.34
A probabilidade de erro foi da ordem de 0.0003, isto , entre as 120
amostras elicas estudadas 3 apresentaram valores de D
i
inferiores a 13.61 e
entre as 75 amostras praiais (mar baixa) estudadas 9 apresentaram valores D
i

superiores a 13.61 (Fig. 3).
F
(calculado)
= 140.17
Como F
( . ; . )
.
0 05 4 190
2 45 = , a hiptese nula de que ambas as mdias
multivariadas fossem iguais, foi rejeitada.
A porcentagem de contribuio direta de cada varivel para a
discriminao entre os dois conjuntos de dados foi:
M
z
= 24.50%

i
= 59.33%
S
k
= 5.70%
K
g
= 10.47%

c) A funo discriminante encontrada para amostras de praia, mar alta e
mar baixa, foi
D M K
i z I K g
= + + 138 2412 2 07 1142 . . . .
'

A partir dessa funo foram determinados os seguintes valores:
D
pa
=- 17.27 (praial, mar baixa)-
90
D
pb
= 18,79 (praial, mar baixa)
D
o
= 18.03
D = 1.52
A probabilidade de erro foi da ordem de 1.19, isto , entre as 75
amostras de linha de mar alta 16 apresentaram valores de D
i
inferiores a -
18.03 e entre as 75 amostras da linha de mar baixa 33 apresentaram valores
de D
i
superiores a -18.03 (Fig. 4).
F
(calculado)
= 13.94
Como F
( . ; . )
.
0 05 4 145
2 45 = a hiptese nula de que ambas as mdias
multivariadas fossem iguais, foi rejeitada.
A porcentagem de contribuio direta de cada varivel para a
discriminao entre os dois conjuntos de dados foi:
M
z
= - 17.59%

i
= 114.93%
S
k
= 8.34%
K
g
= 5.67%

Como visto, as funes discriminantes podem ser utilizadas no apenas
na distino entre ambientes de sedimentao, como j verificado por Autores
como Greenwood (1960), Middleton (1962), Mellon (1964); Sahu (op.cit.),
Landim e Frakes (1968), Moiola e Weiser ( 1969), entre outros, mas
tambm para fornecer informaes sobre quais as variveis mais importantes
para essa separao. Nesse sentido, verificou-se que as variveis que mais
contribuem para a discriminao entre os ambientes elico e praial nem
sempre so as mesmas.
Isso uma constatao digna de meno, porque tem sido atribuda
uma importncia muito grande ao ndice assimetria para a distino entre
esses dois ambientes (Masson e Folk, op.cit.; Friedman, 1961; Folk e
Robles, 1964; Duane, 1964; Martins, 1965). Inclusive no primeiro exemplo
aqui estudado, isto , o referente ao litoral riograndense, tal hiptese foi
confirmada, pois o ndice assimetria o que mais contribui para a distino
entre os ambientes. Para este caso, a seguinte explicao apresentada:
depsitos praiais ocorrem em ambientes de alta energia onde as partculas
91
esto continuamente submetidas aos processos de "swash" (saca) e
"backwash" (ressaca) das ondas. Desse modo os finos so removidos pelo
"backwash" que no tem competncia para remover o material mais grosseiro
depositado pelo "wash", ocasionando uma distribuio granulomtrica com
assimetria negativa. A ao do vento carregando material para as dunas
capaz de transportar mais material fino que grosseiro resultando uma
distribuio granulomtrica com tendncia assimetria positiva.
Por outro lado no caso de Ilha Comprida a varivel mais importante para
distinguir o ambiente elico do ambiente praial ao longo da ilha da mar alta foi
o ndice mdia, e para distinguir aquele ambiente do praial ao longo da linha da
mar baixa foi o ndice desvio padro. A distino entre os dois sub-ambientes
praiais baseia-se fundamentalmente ao ndice desvio padro.
A interpretao desses resultados esta ligada ao fato de que distribuio
granulomtrica de um sedimento controlada por:
a) material disposio;
b) processos sedimentares de eroso, transporte e deposio;
c) nvel energtico do ambiente de deposio.
Como esses fatores variam dentro de um mesmo ambiente de
sedimentao, ocorre para cada um dos ndices granulomtricos, comumente
utilizados em Sedimentologia, uma variabilidade associada. No caso da
plancie costeira gacha a fonte de material a existente principalmente areias
retrabalhadas dos cordes litorneos e das formaes pleitocenicas ocorrentes
na regio, e o processo sedimentar atuante deve ser aquele apresentado atrs.
Nesse caso as areias elicas apresentam um valor mdio para o ndice
assimetria de 0,13 e as areias praiais de -0,11. Tambm apresentam para o
ambiente elico um valor mdio para o ndice desvio padro de 0,24, e para o
ambiente praial, respectivamente, os valores 2,41 e 0,37. Isso significa que as
areias so, em mdia, mais grosseiras e pior selecionadas no ambiente praial
que no ambiente elico.
Na Ilha Comprida a principal fonte fornecedora de dettos para os
diversos ambientes um extenso depsito de sedimentos originados por
regresso pr-atual, do tipo "blanket sand", constitudo por areias muito finas,
homogneas e bem selecionadas, a que Suguio e Petri (1973) propuseram o
termo Formao Canania. Os valores mdios para o ndice mdia, desvio
92
padro e assimetria para as areias elicas, praial (linha da mar alta) e praial
(linha da mar baixa) so respectivamente, 2.92, 0.21 e 0.27; 2.66, 0.30 e 0.10;
2.47; 0.37 e 0.16. Isso significa que o ambiente elico apresenta, em mdia,
areias mais finas e melhores selecionadas que os sub-ambientais praiais e que
todos esses ambientes mostram, em mdia, valores positivos para assimetria.
Num estudo sedimentolgico sobre as areias praiais da Ilha Comprida,
Barcelos (1975) verificou que h diminuio dos valores do dimetro mdio de
sul para norte da Ilha, predominando, portanto, areias mais grosseiras na
regio sul. Quanto ao grau de seleo, ocorre tambm uma melhoria no
sentido norte. claro que essa diferenciao mais marcante ao longo da
linha da mar baixa, pois a o nvel energtico maior.
Para explicar a importncia da varivel media no caso do ambiente
elico e praial (linha de mar alta) deve se ter em mente que a densidade, a
viscosidade e a competncia do vento so menores comparadas com a gua, o
que acaba por refletir no tamanho dos gros que so maiores neste ambiente
do que naquele.
No caso dos ambientes elico e praial (linha da mar baixa) a varivel
mais importante revelada foi o ndice desvio padro, pois as flutuaes na
velocidade do vento de menor magnitude, em termos de valor hidrulico, que
num ambiente praial, principalmente ao longo da linha da mar baixa, e,
portanto, sedimentos elicos so melhores selecionados.
93

BIBKIOGRAFIA
BARCELOS, J.H. (1975) - Sedimentao e subambientes deposicionais da Ilha
Comprida, So Paulo: Dissertao de Mestrado, Instituto de Geocincias, USP
(indito).
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2th ed., John Wiley and
Sons, Inc.
DUANE, D.B (1964) - Significance of skewness in Recent Sediments, Western Palmico
Sound, North Carolina: Jour. Sed. Petrology, 34:
FOLK, R. L. (1966) - A review of grain-size parameters: Sedimentology, 6:73-93.
FOLK, R.L. & ROBLES, R. (1964) - Carbonate sands of Isla Perez, Alacran Roef
Complex, Ycatan: Jour, Geology, 72:255-292.
FOLK, R.L. & WARD, W.C. (1957) - Brazos river bar: a study in the significance of
grain size parameters: Jour. Sed. Petrology, 27:3-26.
FRIEDMAN, G.M. (1961) - Distinction between dune, beach, and river sands from their
textural characteristics: Jour. Sed. Petrology, 31:514-529.
GREENWOOD, B. (1960) - Sediment parameters and evironment discrimination: an
application of multivariate statistics: Canad. Jour. Earth Sc., 6:1347-1358.
LANDIM, P.M.B. & CASTRO, P.R.M. (1981) - Distino entre areias elicas e praiais
pela anlise discriminante: Not. Geomorfol., 21:41-60.
LANDIM, P.M.B. & FRAKES, L.A. (1968) - Distinction between tills and other
diamictions based on textural characteristics: Jour. Sed. Petrology, 38:1213-1223.
LANDIM, P.M.B.; PISANI, J.F. & BSIO, N.J. (1977) - Aplicao do D
2
de Mahalanobis
na distino de ambientes de sedimentao: An. Acad. Brasil. Cinc., 49:259-268.
MARTINS, L.R. (1965) - Significance of skewness and kurtosis in environmental
interpretation: Jour. Sed. Petrology, 35:768-770.
MARTINS, L.R. (1967) - Aspectos texturais e deposicionais dos sedimentos praiais e
elicos da plancie costeira do Rio Grande do Sul: Esc. Geol. Porto Alegre, Publ.
EspEcial n 13:1-100.
MASON, C.C. & FOLK, R.L. (1958) - Differentiation of beach, dune, and aeolian flat
environments by size analysis, Mustang Island, Texas: Jour. Sed. Petrology,
28:211-226.
MELLON, G.B. (1964) - Discriminatory analysis of calcite and silicate cemented phases
fo the Montain Park sandstone: Jour. Geology, 72:786-809.
MIDDLETON, G.V. (1962) - A multivariate statistical technique applied to the study of
sandstone composition: Trans. Royal Soc. Canad, 56:119-126.
94
MOIOLA, R.J. & WEISER, D.C. (1968) - Textural parameters: and evaluation: Jour.
Sed. Petrology, 38:45-53.
MOIOLA, R.J. & WEISER, D. (1969) - Environmental analysis of ancient sandstone
bodies by discriminant analysis: Bull. Amer. Ass. Petrol. Geol., 53:733.
PASSEGA, R. (1957) - Texture as characteristic of clastic deposition: Am. Assoc.
Petroleum Geologists Bull., 41:1952-1984.
RAO, C.R. (1952) - Advanced statistical methods in biometric research: John Wiley
and Sons.
SAHU, ,K, (91964) - Depositional mechanisms from the size analysis of clastic
sediments: Jour. Sed. Petrology, 34:73-83.
SHEPARD, F.P. & YOUNG, R. (1961) - Distinguishing between beach and dune
sands: Jour. Sed. Petrology, 31:196-214.
SUGUIO, K. & PETRI, S. (1973) - Stratigraphy of the Iguape-Cananeia logoonal region
sedimentary deposits, So Paulo, Part 1: Field observations and grain-size
analysis: Bol. I.G., Inst. Geocincias, USP, 4:1-20.
VISHER, G. (1969) - Grain size distribuitions and depositional processes: Jour. Sed.
Petrology: 39:1074-1106.
95

8. EXEMPLO DE ANLISE ESTATSTICA MULTIVARIADA INTEGRADA

Como exemplo de aplicao integrada dos mtodos estatsticos
multivariados so utilizados os dados obtidos por Arajo (1976), e j
analisados por Landim e Perinotto (1981), para exemplares de
mesossaurdeos coletados em diversas localidades ao longo da faixa de
afloramentos da Formao Irati na borda leste da Bacia do Paran. Foram
consideradas trs espcies: Stereosternum tumidum (Cope, 1886),
Mesosaurus brasiliensis (MacGregor, 1908) e Brazilosaurus sampauloensis
(Shikama e Ozaki, 1966). Os valores esto expostos na Tabela 8. 1.


Dentes (mm)
Exemplar Crnio (cm) Pescoo (cm) Comprimento Largura
M01 7,1 6,0 4,75 0,50
M02 6,7 4,8 7,50 0,37
M03 6,7 5,3 7,00 0,50
M04 8,9 5,6 11,25 0,75

M05 7,1 5,2 8,75 0,75
M06 7,2 4,9 8,75 0,75
M07 7,6 4,9 7,50 0,50
M08 7,9 5,8 11,25 0,75
M09 7,8 5,1 5,75 0,50
M10 9,2 6,8 11,75 0,75
M11 7,1 6,0 8,25 0,75
M12 9,6 8,3 7,75 0,75
M13 5,1 4,2 4,25 0,50
M14 7,9 6,2 9,25 0,50
M15 7,2 4,3 4,00 0,50
S16 6,0 5,5 4,00 0,50
S17 5,8 4,6 3,25 0,50
S18 5,8 5,1 2,00 0,50

S19 6,6 5,3 4,25 0,37
S20 4,7 4,6 2,25 0,50
S21 6,4 5,8 3,75 0,50

S22 5,8 4,7 3,50 0,50

S23 6,2 6,0 4,50 0,50

S24 6,5 7,1 3,50 0,75

S25 5,2 5,6 3,00 0,50

S26 6,2 6,6 3,75 0,50

S27 6,5 5,8 3,00 0,75

S28 5,5 5,6 4,50 0,75
96

B29 5,3 7,2 2,00 0,50

B30 4,9 7,6 0,75 0,45

B31 5,0 7,3 2,75 0,50

B32 5,2 7,7 2,00 0,75

Tabela 8.1. Medidas obtidas em Mesosaurus brasiliensis (M), Stereosternum
tumidum (S), e Brazilosaurus sampauloensis (B)


Para a anlise de agrupamentos, usando o modo Q com o coeficiente
distncia euclidiana e mtodo UPGM, obteve-se, utilisando o pacote MVSP,
o dendrograma exibido na Figura 8.1. Verifica-se que os exemplares M01, M15
e M13, tidos como Mesosaurus, esto localizados dentro de grupo do
Stereosternum. Alm disso os quatro exemplares B29, B32, B31 e B30, todos
do genero Brazilosaurus, formam um grupo integrado ao do Stereosternum. Tal
constatao merece uma reflexo sobre a validade ou no de atribuir os
exemplares M01, M15 ao gnero Mesosaurus. Alerta tambm para a
possibilidade de questionar a validade do gnero Brazilosaurus.



Figura 8.1. Dendrograma, modo Q, para os mesossaurdeos da Formao Irati.

97
Os mesmos dados submetidos anlise das componentes principais,
pelo pacote MVSP, fornece os seguintes autovalores e autovetores:

eixos autovalores Porcentge
m
%
acumulada
1 10,257 86,91 86,91
2 1,170 9,92 96,83
3 0,363 3,07 99,90
4 0,011 0,10 100,00

Variveis autovetor 1 Autovetor 2 autovetor 3 autovetor 4
Crnio 0,343 0,263 0,901 0,011
Pescoo -0,022 0,961 -0,271 -0,047
Comp.dent
e
0,939 -0,075 -0,335 -0,025
Larg.dente 0,019 0,041 -0,031 0,999

Este resultado mostra que o maior peso para a constituio do autovetor
1, que responde por 86,91% da variabilidade presente, a varivel
comprimento dos dentes e para o vetor 2, com 9,92%, a varivel pescoo.
A multiplicao da matriz original de dados pela matriz de autovetores
fornece os factor scores dos espcimes. Escolhidos os dois principais eixos ou
fatores, correspondendo a uma porcentagem acumulada dos autovalores da
ordem de 96,83%, obtm-se a distribuio espacial dos factor scores (Figura
8.2.).

98

Figura 8.2. Distribuio conjunta dos factor scores e variveis, em relao aos
dois principais fatores

Os resultados fornecidos pela anlise das componentes principais , so
bastante semelhantes aos obtidos pela anlise de agrupamentos e, portanto,
merecem as mesmas consideraes anteriormente apresentadas. Nesta
anlise constata-se, novamente, que os espcimes 01, 13 e 15, referidos a
Mesosaurus, esto mais associados ao campo dos Stereosternum. Tambm a
posio espacial de Brazilosaurus mais prxima Stereosternum do que
Mesosaurus.
Aps aplicao dessas duas anlises resta a questo de decidir se
ocorre uma separao significante entre as populaes estudadas. Caso seja
esse o caso escolher quais as variveis mais importantes para a discriminao
entre esses taxas. Para tanto utiliza-se da anlise discriminante linear entre
dois grupos, com a utilizao do pacote MVSP.
Os resultados, j apresentados por Landim e Perinotto (1976), so os
seguintes:
a) Funo discriminante para Mesosaurus brasiliensis x Stereosternum
tumidum:
D Ccr Cp Cd Ld
i i i i i
= + 2 66 2 56 111 3 40 , , , ,
DM

= 12,46/ DS

= 3,55/ D
o
= 8,00/ D = 8,91
Teste F = 13,72 (F
4/23
= 2,80)
99
De acordo com a funo discriminante entre os exemplares utilizados
para a anlise, os de designao (M01) e

(M13), assinalveis a Mesosaurus
brasiliensis, apresentam respectivamente os valores Di = 7,087 e Di = 5,824, o
que indica provavelmente que esses espcimes estejam mal classificados
como Mesosaurus brasiliensis e que talvez, levando em considerao as
quatro variveis estudadas, pertenam espcie Stereosternum tumidum.
Recomenda-se neste caso uma anlise osteolgica mais detalhada ou mesmo
verificao do nvel estratigrfico de onde provenham.
A porcentagem de contribuio direta de cada varivel para a
discriminao entre os dois conjuntos de dados : comprimento dos dentes
= 54,46%; comprimento do crnio = 47,79%; comprimento do pescoo =
0,04%; largura dos dentes = - 2,29%
Esses resultados indicam que as variveis mais importantes na distino
entre as duas espcies so o comprimento dos dentes e secundariamente, o
comprimento do crnio; alm disso, demonstra a validade das afirmaes de
Arajo (op. cit.) quando conclui que o comprimento do pescoo no demonstra
diferena significativa e que a largura dos dentes entre as duas espcimes no
se altera.
b) Funo discriminante para Stereosternum tumidum x Brazilosaurus
sanpauloensis:
D Ccr Cp Cd Ld
i i i i i
= + 7 82 9 48 2 48 16 78 , , , ,
DS

= 11,55/ DB = -16,86/ D
o
= -2,65/ D = 28,40;
Teste F = 17,38 (F
4/12
= 3,26)
Cada varivel considerada na discriminao contribuiu diretamente com
a seguinte porcentagem: comprimento do pescoo = 63,03%; comprimento do
crnio = 23,09%; comprimento dos dentes = 14,00%; largura dos dentes = -
0,14%
Com esses resultados, correto dizer que o comprimento do pescoo
a varivel mais significativa na distino entre essas espcies, o que vem
corroborar com as concluses de Arajo (op. cit.) ao testar as afirmativas de
Shikama & Ozaki (op.cit.).
c) Funo discriminante para Mesosaurus brasiliensis x Brazilosaurus
sampauloensis
100
D Ccr Cp Cd Ld
i i i i i
= + 8 35 9 27 0 68 4 01 , , , ,
DM

= 14,30/ DB = -27,43/ D
o
= -6,56/ D = 41,73
Teste F = 27,13 (F
4/14
= 3,11)
As variveis mais importantes na distino entre as duas espcies so o
comprimento do crnio (48,80%) e o comprimento do pescoo (41,99%). A
contribuio direta do comprimento dos dentes de 9,76%, enquanto que a
largura dos dentes em nada contribuiu (-0,56%). Esses resultados quantificam
e demonstram a validade de deduo de Arajo (op. cit.) em relao
distino entre essas duas espcies.
A anlise multivariada das funes discriminantes mostra-se eficaz,
comprovando estatisticamente a existncia dos trs taxa, Sterreosternum
tumidum, Mesosaurus brasiliensis e Brazilosaurus sanpauloensis, trabalhando
ao mesmo tempo com as quatro variveis consideradas para a discriminao e
fornecendo aquelas de maior importncia na distino entre esses taxa. Entre
Stereoternum tumidum e Mesosaurus brasiliensis, o comprimento dos dentes,
entre Stereosternum tumidum e Brazilosaurus sanpauloensis, o comprimento
do pescoo e entre Mesosaurus brasiliensis e Brazilosaurus sanpauloensis os
comprimentos de crnio e escoo. Nas Figuras 8.3. e 8.4. acham-se
representado o relacionamento entre esses fsseis.
101


Figura 8.3. - Grficos mostrando os valores D
i
ao longo da linha discriminante

102




Figura 8.4. - Afastamento entre os grupos usando a distncia generalizada de
Mahalanobis (D
2
)

Isso est de acordo com Bertini (informao verbal) quando afirma que o
gnero Brazilosaurus provavelmente a forma ancestral dos outros dois
gneros e o mais terrestre dos mesossauros, com pescoo longo que favorece
a predao, parecendo ter compartilhado seu nicho ecolgico com
Stereosternum. O gnero Stereosternum teria vivido em guas rasas
perifricas com maior energia de deposio e condies mais aerbicas.
Quanto ao Mesosaurus teria habitado guas depocntricas e seria o mais
aqutico dos mesossaurdeos, providos de longos e finos dentes, muito
provavelmente filtrador suspensvoro, e com pescoo curto.
Finalmente foi feita uma anlise discriminante multigrupos, com o auxlio
do pacote STATISTICA, tendo sido obtido o resultado apresentado na Figura
8.5.

103
Figura 8.5. Anlise discriminante entre os tres grupos de mesossaurdeos


BIBLIOGRAFIA

ARAUJO, D.C. (1976) - Taxonomia e Relaes dos Progranossauria da Bacia do
Paran: An. Acad. Brasil. Cinc., 48 (1):91-116
COPE, E.D.(1886) - A contribution to the vertebrate paleontology of Brazil: Proc. Amer,
Phil. Soc., 23:7-15.
LANDIM. P.M.B. & PERINOTTO, J.A.J. (1981) - Taxonomia numrica dos
messoraurdeos da Formao Irati (P, Bacia do Paran): Soc. Bras. Geo., Ncleo
de So Paulo, Atas do 3 Simp. Reg. Geologia, 2:201-212.
MACGREGOR (1908) - Mesosaurus brasiliensis nov. sp.: Rel. Final Comisso Est.
Minas de Carvo de Pedra do Brasil, Rio de Janeiro, 2:301-336.
MVSP Plus (1998) Kovach Computing Services, verso 3.0
SHIKAMA, I. & OZAKI (1966) - On a Reptilian Skeleton from the Paleozoic Formation
of San Paulo, Brazil: Trans. Proc. Paleont. Soc. Japn NS., 61:351-358.
STATISTICA for Windows (2000) StatSoft Inc.,, verso 5.5
104

9. ANLISE ESTATSTICA DE DADOS GEOLGICOS MULTIVARIADOS
COM DISTRIBUIO ESPACIAL
Os mtodos clssicos da anlise estatstica multivariada, como visto
neste texto, no levam em considerao a localizao das amostras, no
sentido geolgico, nem as suas relaes espaciais e tambm no refletem as
diferenas quanto o suporte das amostras ou com relao ao suporte da regio
onde o estudo esta sendo realizado. Por outro lado a metodologia
geoestatstica univariada tem essas propriedades, mas no capaz de tratar
da correlao espacial entre diversas variveis. Ferramentas se tornam, ento,
necessrias para incorporar essas importantes feies e da a necessidade de
mtodos estatsticos que enfoquem a anlise espacial de dados geolgicos
multivariados.
Para tanto solues tem sido apresentadas: umas, adaptativas,
procurando, a partir dos resultados dos mtodos clssicos, verificar se os
mesmos apresentam uma organizao espacial significativa e outras,
especficas, desenvolvendo metodologias prprias para esta problemtica.

9.1. Adaptao de mtodos estatsticos multivariados
Caso as amostras, no sentido geolgico, sejam georreferenciadas os
grupos resultantes da anlise de agrupamentos/modo Q podero ser
submetidos a uma verificao espacial para a constatao de algum padro de
distribuio espacial desses grupos. De modo idntico os scores,
provenientes de pontos com coordenadas geogrficas conhecidas, de
componentes principais ou de fatores podero fornecer mapas de distribuio
ou de tendncia. A anlise discriminante pode ser aplicada para avaliar e
comparar alteraes ocorridas a intervalos de tempo indicando que variveis
mais contribuiram para essas mudanas. So adaptaes de mtodos
estatsticos multivariados procurando modelar espacial ou cronolgicamente
fenmenos geolgicos. Isso, porem, smente possvel se as amostras da
matriz de dados tem perfeitamente conhecidas as suas coordenadas
geogrficas.
105
Um ilustrativo exemplo apresentado por Bernardi, Fowler e Landim
(1997), onde aplicada a anlise das componentes principais num estudo
sobre impacto ambiental para verificar a importncia das variveis coletadas
num efluente de uma fbrica de papel e celulose ingressando num corpo
receptor. As amostras foram coletadasno rio Paraba do Sul, na fazenda
Coruputuba, no municpio de Pindamonhangaba, Estado de So Paulo, Brasil.
A rea amostrada era da ordem de 2900 m de comprimento por 100 m de
largura, com um total de 290000 m
2
. Foram amostrados 90 pontos numa malha
regular, na qual os pontos no sentido sul para o norte foram eqidistantes em
100m, e no sentido leste para oeste em 50m, sendo considerado o ponto 0m
na margem direita, o ponto 50m no meio do rio e 100m na margem esquerda.
As variveis obtidas foram: riqueza de gneros do plncton, pH, temperatura,
oxignio dissolvido, transparncia da gua, cor e turbidez da gua. As
amostras de plncton foram coletadas com rede horizontal de malha de 50 m,
durante 10 minutos. Com exceo das anlises para cor , turbidez e DBO, as
demais foram realizadas no campo para maior confiabilidade dos resultados.
Pela aplicao da anlise das componentes principais os Autores
verificaram que na primeira componente, com uma porcentagem de explicao
de 84,64%, as maiores cargas vetoriais, em mdulo, ficaram com as variveis
transparncia (0,975), OD (0,969), DBO (-0,984) e cor (-0,969). Para a segunda
componente as responsveis pelas maiores cargas foram as variveis
profundidade da luz (0,145) e nmero de gneros do plncton (-0,780). Devido
as maiores cargas na primeira componente obtida serem provenientes das
variveis fsico-qumicas, esta componente foi interpretada como sendo
controlada por fatores abiticos. Como na segunda componente, com uma
porcentagem de explicao de 8,37%, a carga mais alta foi devido a varivel
riqueza de gneros do plncton, ela foi considerada como controlada por
fatores biolgicos. (Tabela 9.1.).

Tabela 9.1. Cargas das componentes principais sem rotao
Componentes I II III
N
0
Gneros 0.621 -0.780 0.066
pH 0.957 0.019 -0.033
106
Temperatura -0.859 0.025 0.508
OD 0.969 0.031 0.130
Profundidade da
luz
0.975 0.145 0.053
DBO
5
-0.984 -0.064 -0.085
Cor -0.969 -0.129 -0.015
Turbidez -0.967 0.133 -0.156
% de variao 84.643 8.366 3.941

Na Tabela 9.2. esto os resultados aps a rotao fatorial. Como
esperado, tal rotao das componentes mostrou um aumento da cargas das
variveis nos respetivos eixos.

Tabela 9.2. Cargas das componentes principais rotacionados (Quartimax)
Componentes
I II III
N
0
Gneros 0.531 0.845 -0.020
pH 0.951 0.083 -0.073
Temperatura -0.833 -0.077 0.546
OD 0.970 0.085 0.090
Profundidade da
luz
0.987 -0.033 0.021
DBO
5
-0.987 -0.051 -0.046
Cor -0.997 0.021 0.018
Turbidez -0.981 0.014 -0.124
% de variao 83.589 9.240 4.122

As Figuras 9.1. e 9.2. mostram a distribuio espacial dos escores das
duas principais componentes, aps rotao. Na Figura 9.1. os escores da
primeira componente no variam nas margens esquerda, ou seja, na parte no
afetada, direita e meio do rio antes da entrada do efluente. Aps a entrada, a
componente abitica comea a variar decaindo a partir da coordenada NS
1100m, assumindo valores negativos e voltando a crescer a partir da
coordenada NS 2000 m. Este comportamento pode ser explicado pelo aumento
107
de DBO
5
, cor e turbidez com a entrada do efluente e a diminuio do OD e da
transparncia. A segunda componente (Figura 9.2.) varia pouco na margem
esquerda decaindo na regio do meio do rio. A margem direita comea com
cargas positivas, decaindo a partir dos ponto de coordenada 1100m, voltando a
crescer depois do ponto de coordenada 2000m.




9.2. Metodologia especfica para anlise estatstica multivariada espacial
9.2.1. Cokrigagem
O termo Geoestatstica, com significado de estatstica de dados
georreferenciados, foi cunhado por Matheron (1962 e 1963) em seu trabalho
metodolgico sobre o comportamento das chamadas variveis regionalizadas,
ou seja, com comportamento espacial.
Figura 9.1.Variao espacial da primeira
componente
Figura 9.2. Variao espacial da segunda
componente
108
A geoestatstica consiste na aplicao da teoria das variveis
regionalizadas para efetuar estimativas dentro de um contexto regido por um
fenmeno natural com distribuio no espao ou no tempo e, desse modo,
supe que os valores das variveis so correlacionados no espao ou no
tempo. Devido a essa caracterstica, a geoestatstica tem tido grande aplicao
principalmente para efetuar estimativas e/ou simulaes de variveis em locais
no amostrados.
De uma forma geral, a metodologia geoestatstica procura extrair, de
uma aparente aleatoriedade dos dados coletados, as caractersticas estruturais
do fenmeno regionalizante, ou seja, uma funo de correlao entre os
valores situados numa determinada vizinhana e direo no espao amostrado.
O mtodo de estimao utilizado o da krigagem. Trata-se de um processo de
estimao por mdias mveis, de valores de variveis distribudas no espao a
partir de valores adjacentes, enquanto considerados como interdependentes por
uma funo denominada de semivariograma.
Se uma varivel regionalizada x(i) for coletada em diversos pontos i, o
valor de cada ponto estar relacionado com valores obtidos a partir de pontos
situados a uma certa distncia h e a influncia ser tanto maior quanto menor
for a distncia entre os pontos. O grau de relao entre pontos numa certa
direo pode ser expresso pela covarincia, sendo os pontos regularmente
espaados por mltiplos inteiros de h.
Para uma distncia h infinitamente pequena a covarincia e a
varincia se tornam muito prximas, porm para h maiores, a covarincia
diminui enquanto a varincia aumenta, ou seja, ocorre progressivamente maior
independncia entre os valores obtidos a distncias cada vez maiores.
Sendo x(1), x(2), .... x(i), .... x(n), realizaes de uma varivel
regionalizada, a estimativa no tendenciosa da semivarincia dada por
(h) = 1/2n {x(i+h) - x(i)}
Tais relaes so mostradas quando a funo (h) colocada em
grfico contra h para originar o semivariograma. Este expressa o
comportamento espacial da varivel regionalizada e mostra, segundo a Figura
9.3:
109
amplitude (a), que indica a distncia a partir da qual as amostras passam a
no possuir correlao espacial e a relao entre elas torna-se aleatria;
toda amostra cuja distncia ao ponto a ser estimado for menor ou igual
amplitude fornece informaes sobre o ponto;
patamar (C + Co), que indica o valor segundo o qual a funo estabiliza-se
no campo aleatrio, correspondente distncia a; mostra a variabilidade
mxima entre pares de valores, isto , a varincia dos dados e,
consequentemente, covarincia nula;
continuidade, pela forma do variograma, em que para h=0 (h) j apresenta
algum valor. Esta situao conhecida como efeito pepita e
representada por Co; o efeito pepita pode ser atribudo a erros de medio
ou ao fato de que os dados no foram coletados a intervalos
suficientemente pequenos, para mostrar o comportamento espacial
subjacente do fenmeno em estudo.
anisotropia, quando os semivariogramas se mostram diferentes para
diferentes direes de linhas de amostragem;



Figura 9.3. Modelo variogrfico
A krigagem usa informaes a partir do semi-variograma para encontrar
os pesos timos a serem associados s amostras com valores conhecidos que
iro estimar pontos desconhecidos. Nessa situao o mtodo fornece,
alm dos valores estimados, o erro associado tal estimao, o que o
110
distingue dos demais algoritmos disposio. entendida como uma srie de
tcnicas de anlise de regresso que procura minimizar a varincia estimada a
partir de um modelo prvio, que leva em conta a dependncia estocstica entre
os dados distribudos no espao. Dentre os mtodos de estimativas,
comumente empregados, o mtodo geoestatstico da krigagem pode ser
considerado como o melhor estimador linear sem vis, cuja meta a
minimizao da varincia da estimativa e com erro residual mdio igual a zero.
As formas mais usuais so a krigagem simples e a krigagem ordinria e
entre os mtodos no lineares destaca-se a krigagem indicativa.
A krigagem simples utilizada quando a mdia assumida como
estatisticamente constante para toda a rea. A krigagem ordinria, por sua vez,
considera a mdia flutuante ou mvel por toda a rea. Sendo necessrio a
estimativa de valores em locais onde no foram feitos pontos de amostragem,
a fase de estimao torna-se um passo importante, visto que a malha de
pontos estimada ser responsvel pela qualidade dos mapas a serem gerados.
Os pontos desta malha devem ser estimados de modo a gerar mapas
confiveis podendo, assim, auxiliar nos projetos que requerem estimativas com
determinada preciso.
O desenvolvimento terico dessa metodologia encontra-se em diversos
textos bsicos de geoestatstica com destaque para Journel & Huijbregts
(1978), Journel (1989) e Isaaks & Srivastava (1989).
A Cokrigagem um procedimento geoestatstico segundo o qual
diversas variveis regionalizadas podem ser estimadas em conjunto, com base
na correlao espacial entre si. , portanto, uma extenso multivariada do
mtodo da krigagem quando para cada local amostrado obtm-se um vetor de
valores em lugar de um nico valor.
A soluo, por clculo matricial, para a cokrigagem fornecida por:

( )
( ) | |
( ) ( )
| |
| |
( )
| |
( )
| |
1 0
11 1
1
12 1 2
1 0
0 1
21
2
1
22 2
2
0 1
1 1 0 0 0 0
0 0 1 1 0 0
1
2
1
2
11 0 1
12 0 2
1
0
C x x C x y
C y x C y y
C x y
C x y
A X B

,
'
,
, ,
'
,
,
[ ] [ ] [ ]

(
(
(
(
(
(
(
(
(
(

(
(
(
(
(
(

(
(
(
(
(
(
M M
M M
L L
L L

111
onde
1
1
1 1
1
1 2
1
2 2
1
2
= = = = , ... , ;
'
, ... , ; ,..., ;
'
, ... , . n n n n
A matriz [A] composta por:
sub-matriz
( ) | |
C x x
a
11 1
1

,
'
, que descreve a distribuio espacial da primeira varivel
z
1
;
sub-matriz
( )
C y
22 2
2



,
'

(
, que descreve a distribuio espacial da segunda
varivel z
2
;
sub-matrizes
( )
C x y
12 1
2

(
e
( )
C y x
21 2
1

(
, que descrevem a variabilidade
cruzada das variveis z
1
e z
2
consideradas em conjunto;
os termos restantes 0 e 1 correspondem a condies de no envis
A matriz [A] no contm nenhuma informao sobre o ponto x
o
para o
qual necessria a estimao. Toda a informao necessria est contida no
vetor [B].
O vetor [B] composto por:
subvetor
( ) | |
C x x
a
11 0
1
,
, que depende da configurao geomtrica relativa do ponto
x
o
em relao aos pontos x
1
, onde z
1
observada;
sub-vetor
( ) | |
C x y
a
12 0
2
,
, que depende da configurao geomtrica relativa do
ponto x
0
em relao aos pontos y
2
, onde z
2
observada;
os termos vertentes 0 e 1 correspondem condies de no envis.
A soluo do sistema, ou seja, clculo dos
n
1 1

coeficientes e
n
2 2


coeficientes para diferentes pontos x
o
obtida pela inverso de [A] e
subsequente multiplicao por [B];
1
e
2
so os multiplicadores da
Lagrange.
Uma das mais freqentes aplicaes da cokrigagem ocorre quando a
amostragem insuficiente, isto , quando uma ou mais variveis no so
coletadas em todos os pontos de amostragem. O objetivo ento melhorar a
estimao das variveis sub-amostradas utilizando a correlao, por ventura
existente com variveis mais densamente amostradas. Trata-se de uma
ferramenta geoestatstica que vem sendo cada vez mais utilizada em diversas
situaes de estimao ou de modelagem, existindo a disposio diversos
112
programas (Carr, Myers e Glass, 1985; Yates e Yates, 1990; Marcotte, 1991
e Deutsch e Journel, 1992, entre outros)
Fundamental na utilizao da cokrigagem a verificao prvia da
correlao existente entre as variveis, a qual deve ser alta para que as
estimativas sejam consistentes. Tambm deve ser notado que a melhoria de
interpretao somente significativa quando uma das variveis tem um
nmero extremamente reduzido de casos em relao outra e que o sistema
de cokrigagem torna-se extremamente complicado no caso de mais de duas
variveis. Desse modo crticas a esse mtodo so encontradas na literatura
como, por exemplo, em Myers, 1992 e 1988, Davis e Greenes, 1983.

9.2.2. Krigagem indicativa
A krigagem indicativa consiste basicamente na aplicao da krigagem
ordinria para a varivel transformada, ou seja, a varivel resultante da
aplicao da funo no linear f(z) = 0 ou 1.
No processo bsico da krigagem, a estimativa feita para um valor
mdio em um determinado local. Pode-se, porm, tambm fazer estimativas
baseadas em valores que se situam abaixo ou acima de um determinado nvel
de corte (cutoff). Este procedimento, estabelecido para vrios nveis de corte
(percentis de uma curva de distribuio acumulada) de uma distribuio,
conduzir a uma estimativa de vrios valores da distribuio acumulada em um
determinado local, cuja funo poder ser ajustada.
Para se atingir estes objetivos, o primeiro passo, na krigagem indicativa,
transformar os dados originais em indicadores, isto , transformar os valores
que esto acima de um determinado nvel de corte em zero (0) e os que esto
abaixo em um (1):

>

=
c
c
c j
v v
v v
v i
j
j
se 0
se 1
) (

Desta forma, so calculados os semivariogramas experimentais
indicativos para determinados nveis de corte e estabelece-se os modelos
113
variogrficos para os mesmos. Os semivariogramas indicativos podem ser
estimados pela funo:


i c
h
c c
i
N
h v
N
i x h v i x v
h
( , ) ( , ) ( , ) = +
=

1
2
2
1

Onde:
= h passo (lag) bsico
=
c
v nvel de corte
= N nmero de pares
Efetuando-se a krigagem ordinria pontual nos valores transformados,
obtm-se a probabilidade de
c i
v v < . Desta forma, medida que se incrementa
c
v , obter-se- valores estimados da funo de distribuio acumulada, assim
expresso:

)} /( ) ; ( { )) /( ; ( n v v i E n v v F
c c
=
Definidas as funes de distribuio acumulada, pode-se, portanto, obter
qualquer intervalo probabilstico da varivel, ou seja:
onde:
i j
v v >
Como exemplo de aplicao da krigagem indicativa, com conotao
multivariada, apresentado o trabalho de Sturaro e Landim (1997). Nesse
estudo foram analisadas duas variveis, a espessura do solo e a profundidade
do lenol fretico, obtidas a partir de sondagens de simples reconhecimento na
regio do stio urbano de Bauru (SP), regio central do Estado de So Paulo.
Na rea, predominam rochas pertencentes ao Grupo Bauru (Cretceo
Superior), sobrepostas s rochas gneas da Formao Serra Geral, que
afloram em direo ao vale do Rio Tiet. O Grupo Bauru compreende uma
seqncia basal lamtica, com cerca de 20 metros de espessura, de origem
lacustre, seguido por arenitos finos a grossos, pouco argilosos, avermelhados,
com algumas intercalaes de lamitos tambm avermelhados. Sua espessura
mxima preservada no deve ultrapassar 190 metros nas cotas topogrficas
mais elevadas.
) ( ) (
i j
v F v F
114
Com relao ao solo, a rea pesquisada apresenta uma cobertura
latosslica muito profunda e homognea, onde os horizontes A e B (solo
superficial) com espessura em torno de 15 metros, passam gradualmente para
horizonte C (solo de alterao), o qual pode atingir at 10 metros de espessura.
Os horizontes A e B apresentam-se constitudos predominantemente por areia
fina a mdia, com teores que variam de 75 a 85% e por argila do tipo caulinita.
Os teores de silte nos horizontes superiores A e B so praticamente
desprezveis, prximos de 3%. O horizonte C apresenta variao textural e
mineralgica gradual com a profundidade, passando de um material com
caractersticas semelhantes ao horizonte B para um material com
caractersticas residuais do substrato rochoso, sendo essencialmente arenoso
com nveis centimtricos argilo-siltosos. Prximo ao contato com a rocha s,
observa-se a passagem para um material argilo-siltoso com frequentes nveis
centimtricos de concrees milimtricas e placas ferruginosas.
Em termos geotcnicos, a rea estudada foi compartimentada em quatro
unidades homogneas, cuja disposio espacial serviu como base para a
anlise geoestatstica dos dados de sondagens, realizados no trabalho.
Tendo em vista que o aqfero Bauru livre na regio e, portanto,
altamente vulnervel contaminao, as duas variveis referidas
desempenham um papel importante na locao de reas necessrias para
disposio de lixo sanitrio.
Preliminarmente, verificou-se as sondagens nas quais havia
informaes sobre as duas variveis e, ento, calculado o coeficiente de
correlao, da ordem de 0,424, entre as mesmas, num total de 76 pares. A
seguir, foram feitas regularizaes dos dados utilizando-se da krigagem
ordinria, com modelo linear simples e com um raio de busca relativamente
pequeno, o que resultou em 529 dados para a varivel lenol fretico e 623
para solo. Esta interpolao preliminar foi empregada, somente para auxiliar
na confeco dos modelos variogrficos indicativos. Desta forma, a partir da
nova malha, foram efetuadas as correspondentes anlises da variabilidade
espacial, em separado, e estabelecidos os modelos matemticos dos
variogramas experimentais.
115
Para a escolha dos nveis de corte das duas distribuies, o critrio foi
dividir os dados da malha original em percentis representativos da distribuio
de freqncia acumulada. Desta forma, os valores de corte para a krigagem
indicativa foram 14, 16, 18, 20 e 22 m para espessura de solo, e 5, 8, 10, 12,5
e 16 m para profundidade do lenol fretico.
Para todos os nveis de corte, de ambas as variveis, foram efetuadas
anlises da variabilidade espacial e obtidos os respectivos modelos
matemticos variogrficos. Para os processos de estimativas, considerou-se os
variogramas indicativos prximos das medianas das variveis em anlise.
Os parmetros obtidos a partir dos modelos ajustados encontram-se na
Tabela 9.3. Subseqentemente os valores para a discretizao da funo de
distribuio acumulada, foram estimados, por krigagem indicativa pontual, para
um retculo de 200 x 180 m, distribudos por uma rea de 90 km2.
Para a elaborao dos mapas probabilsticos, escolheu-se, como
exemplo, valores medianos, ou seja, 18 m de espessura de solo e 14m de
profundidade do lenol fretico como limites para a anlise de favorabilidade de
reas para disposio de lixo sanitrio na rea de estudo.
Tabela 9.3. Valores obtidos a partir dos semivariogramas modelados
Varivel: espessura do solo (S)
Cuttof Modelo Co C A
(14) Esfrico 0.015 0.16 2500
(16) Esfrico 0.01 0.10 2600
(18) Esfrico 0.015 0.21 2700
(20) Esfrico 0.03 0.08 2000
(22) Esfrico 0.02 0.05 2400
Varivel: profundidade do lenol fretico (L)
Cuttof Model C
o
C A
(5) Esfrico 0.01 0.15 3000
(8) Esfrico 0.01 0.18 2800
(10) Esfrico 0.01 0.20 3000
(12.5) Esfrico 0.02 0.19 2900
(16) Esfrico 0.05 0.10 2800

116
Nas figuras 9.4 e 9.5. so apresentados os mapas referentes aos
nveis maiores que 18 m de espessura de solo e maior que 14 m de
profundidade do lenol fretico.

Figura 9.4. Mapa da probabilidade de ocorrncia de solos com espessura
maior que 18m.


Figura 9.5. Mapa da probabilidade de ocorrncia do lenol fretico com a
profundidade maior que 14

Para escolher uma rea que apresentasse as duas condies em
conjunto, para um determinado fim geotcnico, e pressupondo que os dois
117
eventos fossem independentes, foi elaborado um mapa combinado resultante,
que se constituiu no produto dos dois mapas probabilsticos, aplicando-se a
regra multiplicativa de probabilidades para eventos independentes, ou seja:

= ) ( ) (
c c
v L P v S P valor combinado de probabilidades
onde v
c
, representa o valor de corte (cuttof), de interesse da pesquisa para
cada varivel. O mapa da Figura 9.6 mostra o resultado desta operao.

Figura 9.6. Mapa com probabilidades combinadas de ocorrncia de espessura
de solo com mais de 18m e profundidade do lenol fretico com mais de 14m.

Para localizar reas onde a espessura do solo fosse maior que 18m e,
ao mesmo tempo, a profundidade do lenol fretico fosse maior que 14m,
indicando favorabilidade para a localizao de um aterro sanitrio, procurou-se
no mapa resultante reas com a maior probabilidade combinada. Assim, em
termos probabilsticos, as reas mais recomendadas esto localizadas na parte
central e a sudeste. Como a parte central acha-se ocupada pelo stio urbano
de Bauru, a poro sudeste torna-se a mais indicada. Esta rea est contida na
unidade geotcnica II.
118
No estudo apenas duas variveis foram utilizadas, porm a metodologia
pode ser aplicada a diversas variveis combinadas. Tal emprego da krigagem
indicativa, com enfoque multivariado, consiste em uma alternativa para
modelagem com propsitos ambientais, fornecendo um mtodo vivel para
estimar incertezas distribudas espacialmente.

9.2.3. Krigagem fatorial
A krigagem fatorial uma mtodo relativamente recente, desenvolvido
por Matheron (1982) e talvez o mais conhecido entre os espaciais
multivariados. A teoria metodolgica pode ser encontrada em Goovaerts,
1992; Wackernagel, 1994; Goovaerts e Webster, 1994; Castrignan et. al.
1995; Castrignan et al., 2000).
Resumidamente os passos bsicos da krigagem fatorial so:
1. modelagem de corregionalizao das variveis usando o denominado
modelo linear de corregionalizao: todos os p(p + 1)/2 variogramas diretos
e cruzados das p variveis so modelados por uma combinao linear dos
Ns variogramas padronizados para um mesmo alcance (sill); nesta
modelagem supe-se que o comportamento espacial das variveis o
resultado da interao de diferentes processos atuando independentemente
a difererentes escalas espaciais.
2. analise da estrutura de correlaes entre as variveis, levando em
considerao as diferentes escalas, com aplicao da anlise das
componentes principais; um crculo de correlaes entre as variveis
originais e os dois mais importantes fatores regionalizados utilizado para
resumir as relaes entre as variveis a cada escala espacial.
3. estimao das relaes entre os fatores regionalizados e variveis, como
componentes espaciais, a diferentes escalas por cokrigagem, para,
finalmente, mape-los.



119

BIBLIOGRAFIA
BERNARDI, J. V. E.; FOWLER, H. G. & LANDIM, P. M. B. (1997) Aplicao da
estatstica multivariada em estudos de impacto ambiental: VII Simpsio de
Quantificao em Geocincias, Bol Res. Expandidos, 12-16

CARR, J., MYERS, D.E. & GLASS, C.H. (1985) - Co-Kriging: a Computer Program:
Computers & Geociences, 11:111-127.

CASTRIGNAN, A., CONVERTINI, G., LOSAVIO, N. & HOXHA, I. (1995) Studio
delle relazioni tra le propriet fisico-chimiche di un suolo argilloso del litorale ionico-
lucano mediante la geostatistica multivariata: Proceedings of the 13
th
Symposium of
Italian Chemistry Society, Florence, pp. 61-70

CASTRIGNAN, A., GIUGLIARINI, L., RISALITI, R. & MARTINELLI, N. (2000) Study
of spatial relationships among some soil physico-chemical properties of a field in
central Italy using multivariate geostatistics: Geoderma, 97:39-60

DAVIS, B. M. & GREENES, K. A (1983) Estimation Using Spatially Distributed
Multivariate Data: Na Example with Coal Quality: Math. Geology, 15:287-300

DEUTSCH, C.V. and JOURNEL, A.G.- GSLIB-Geoestatistical Software Library and
Users Guide. Oxford University Press, 1992

GOOVAERTS, P. (1992) Factorial kriging analysis: a useful tool for exploring the
structure of multivariate spatial soil information: Jour. Soil Science, 43:597-619

GOOVAERTS, P. & WEBSTER, R. (1994) Scale-dependent correlation between
topsoil copper and cobalt concentrations in Scotland: Eur. Jour. Soil Science, 45:79-95


HUIJBBREGTS, C.J. (1975) - Regionalized variables and quantitative analysis of
spatial data. In: Davis, J.C. &
Mccullagh, M. J. (eds.) Display and analysis of spatial data, p.38 53, John Wiley

ISAAKS, E.H.; SRIVASTAVA, R.M. (1989) - Applied geostatistics. Oxford University
Press,. 561p., New York.

JOURNEL, A.G. (1983) Non-parametric estimation of spatial distribution. Math.
Geology, 15:445-468

JOURNEL, A. (1989) Fundamentals of geostatistics in five lessons. Short course in
Geology, American Geophysical Union, Vol. 8, Washington.

JOURNEL, A.G. & HUIJBREGTS, J.C.H. (1978) Mining geostatistics. Academic Press,
1978. 600p.

MARCOTTE, D. (1991) - Cokriging with Matlab: Computers & Geociences, 17:1265-
1280
.
MATHERON, G. (1962-1963) - Traite de Geostatistique Appliquee: (vols. 1 e 2):
Technip.

120
MATHERON, G. (1982) Pour une analyse Krigeante des donnes regionalises:
Centre de Geostatistique, Fontainebleau, Report 732

MYERS, D. E. (1982) Matrix formulation of co-kriging: Math. Geology, 14:249-258

MYERS, D. E. (1988) - Some Aspects of Multivariate Analysis: in F. Chung et al. (eds.)
Quantiative Analysis of Mineral and Energy Resources, p 669-687, D. Reidel
Publishing Co

STURARO, J. R. & LANDIM, P.M.B. (1997) Indicator kriging for GISs maps
integration: in V. Pawlowsky-Glahn (ed.), Proceedings of IAMG97, CIMNE,Barcelona,
2:699-704

WACKERNAGEL, H. (1995) Multivariate Geostatistics: An Introduction with
Applications: Springer-Verlag, 256 pp.

YATES, S.R. & YATES, M.V. (1990) - Geostatistics for Waste Mangment: A Users
Manual for the GEOPACK (version 1.0) Geostatistical Software System: U.S.
Environmental Protection Agency Report 600/8-90/004.

Вам также может понравиться