Академический Документы
Профессиональный Документы
Культура Документы
3
ANLISES EXPLORATRIAS
NO-ESPACIAL E ESPACIAL
3.1 Introduo
De modo semelhante estatstica clssica, antes de proceder a qualquer modelagem estatstica,
preciso fazer uma anlise exploratria dos dados. A anlise exploratria de dados o processo que
utiliza tabelas, grficos e medidas de representatividade (tambm chamadas medidas de tendncia
central) e de variabilidade para investigar um conjunto de dados e compreender suas caractersticas
mais importantes, tudo direcionado para identificar padres relacionamentos nos dados.
Divide-se em Anlise Exploratria No-espacial de Dados ou, simplesmente, Anlise Exploratria de
Dados (Exploratory Data Analysis EDA) e, no campo do espao, em:
a) Anlise Exploratria de Dados Espaciais ( Exploratory Spatial Data Analysis ESDA), e
b) Anlise Espao-Temporal de Dados Espaciais ( Exploratory Spatio-temporal Data
Analysis ESTDA).
A Anlise Exploratria No-espacial de Dados a clssica Estatstica Descritiva que inclui, por
exemplo, a mdia, a moda, a mediana e o desvio-padro. Estes, no contexto de dados espaciais,
representam resumos estatsticos de tabelas de atributos e valores de grade (grid), bem como
grficos como os histogramas e os diagramas de caixa.
A Anlise Exploratria de Dados Espaciais aplica tcnicas para descrever e visualizar distribuies
espaciais, identificar situaes atpicas e descobrir padres de associao espacial, conglomerados
(clusters) e sugerir regimes espaciais ou formas de heterogeneidade espacial empregando
representaes especficas que consideram a localizao dos dados, tais como Box Maps e mapas
de Moran (a serem vistos no pargrafo 3.6). Essa anlise de dados espaciais feita quando for
preciso considerar a importncia da disposio espacial dos fenmenos que originaram esses dados.
Na anlise espao-temporal, considera-se, agora, o tempo como um dos enfoques complementares
dos mesmos dados, o que conduz necessidade de se realizar uma anlise sistemtica da evoluo
de padres espaciais no tempo, alm da distribuio do comportamento temporal no espao.
Entretanto, devido s bases de dados espao-temporais serem complexas e, muitas vezes,
incompletas ou inconsistentes, usualmente os dados so divididos e explorados em estratos. Por
exemplo, classificar pessoas por idade, sexo ou nacionalidade ao longo do tempo.
Pgina 3-1
Como exemplo simples para distinguir estatstica no espacial da estatstica espacial, considere duas
amostras, A e B, obtidas em regies diferentes, conforme a Tabela 3.1:
Tabela 3.1 Dados de amostras obtidas em regies diferentes
Para a Estatstica Clssica, a mdia e o desvio-padro amostral so iguais para as duas amostras.
Entretanto, considerando a distribuio dos valores amostrais, a primeira amostra tem um
comportamento errtico, enquanto a segunda apresenta um comportamento regular (Figura 3.1)
Em resumo, nada mais do que a aplicao, no espao, dos conceitos de estimao de parmetros
e testes de hipteses da estatstica clssica. Para tanto, utilizam-se mtodos entre os quais se podem
citar os essencialmente voltados visualizao dos dados espaciais, mtodos exploratrios na busca
e no resumo das relaes e de padres e mtodos especificadores do modelo estatstico para a
estimao de parmetros.
Pgina 3-2
Ateno especial deve ser dada a padres inesperados de comportamento e aos valores
discrepantes (denominados outliers a serem vistos no pargrafo 3.6).
Inicialmente, ver-se- a fase de anlise exploratria, associada apresentao visual de dados (sob
forma de grficos e mapas) e a identificao de padres de dependncia espacial no fenmeno em
estudo. Nos captulos 4 a 7, sero vistos o processo de modelagem desses fenmenos.
Grficos
A visualizao grfica uma etapa importante da anlise espacial, porque ajuda a identificar padres
e relacionamentos espaciais nos dados e permite determinar as respostas para perguntas como as
seguintes:
3.2.1.1 Histograma:
Grfico composto por retngulos justapostos em que a base de cada um deles, no eixo das
abscissas, corresponde aos intervalos de classe e as suas alturas (no eixo das ordenadas)
representa, usualmente, a frequncia dos dados no respectivo intervalo de classe ou, ento, essa
frequncia de dados dividida pela amplitude do respectivo intervalo de classe (Figura 3.2).
Pgina 3-3
valor mnimo
1. Quartil (Q1)
Mediana (Q2)
valor mximo.
Com os valores de Q1 e Q3, calcula-se o chamado intervalo quartlico, IQR, (hinge em ingls), uma
medida de disperso.
IQR = Q3 - Q1
Os valores de (Q1 - 1.5IQR) e
Pgina 3-4
3.2.1.3
Pgina 3-5
EXERCCIO 3.2
Repetir, no ArcGIS, o Exerccio 3.1
Dica: Tool Graphs Create.
Pgina 3-6
EXERCCIO 3.3
1. Construir, no GeoDa, o Box Map do PIB dos estados brasileiros.
Dica: Map Box Map Hinge = 1.5.
2. Comparar o Box Map com o diagrama de caixa.
Cuidado: Verificar se o Box Map e o diagrama de caixa esto com o mesmo valor de hinge.
3. Construir, no Geoda, e interpretar o diagrama de disperso.
Dica: Explore scatterplot.
4. Construir, no Geoda, o Box Map dos PIB dos estados brasileiros.
Dica: Map Box Map.
DESAFIO!
Descobrir a origem dos valores constantes nos eixo X e Y do diagrama de disperso no Geoda.
Pgina 3-7
Figura 3.5. Box Map do PIB dos Estados brasileiros no ano de 2002.
Pgina 3-8
Pgina 3-9
e se (x1, y1, z1) e (x2, y2, z2) forem as coordenadas de dois pontos no espao,
a distncia dada por:
A proximidade
wi,j
wi,j = 1 se a regio
Pgina 3-10
w 22,20 = w 22,23=1
e w 22, j
w i,j =
Pgina 3-11
Fonte: http://www.cederj.edu.br/atlas/rio_janeiro_tab4.htm
O valor de
w i,j
L
2
w
14
L
L
L
L
1
2
3
4
onde L2 o comprimento da interseco entre P1 e P4 e (L 1 + L2 + L3 +
L4 ) o permetro de P1. Observe que w i,j w j,i
d) o inverso da distncia linear entre os centrides:
wi, j
1
d
Pgina 3-12
(1)
Pgina 3-13
adotar,
considerados,
tambm,
como
comprimento
da
critrios
interseo
serem
entre
os
das
reas.
Estas
condies
podem
ser
(n)
Pgina 3-14
Para n regies {A1, An}, a partir das proximidades entre duas delas,
constri-se a matriz de vizinhana W nxn, onde cada um dos elementos
w i,j a
w1,1
w1,1
W=
w1,1
w1,1
w
w
w
w
1,2
1,2
1,2
1,2
w
w
w
w
1,1
1,1
1,1
1,1
1,2
1,2
1,2
w
w
w
w
1,2
Gamboa
Santo Cristo
Centro
Cidade Nova
Sade
Gamboa
Santo Cristo
Centro
Cidade Nova
Pgina 3-15
Pode-se normalizar as linhas da matriz para que a soma de cada linha seja igual a 1. Por
exemplo, a partir da matriz da Tabela 3.3 gera-se a matriz da Tabela 3.4
Gamboa
Santo Cristo
Centro
Cidade Nova
Sade
1/2
1/2
Gamboa
1/3
1/3
1/3
Santo Cristo
1/3
1/3
1/3
Centro
1/4
1/4
1/4
1/4
Cidade Nova
1/2
1/2
EXERCCIO 3.4
1. Determinar a matriz de proximidade do arquivo grid_teste_extrato no GeoDa, empregando a
distncia de Torre, contiguidade 1.
Dica: File Open Project. Varivel-chave: ORDEM. Tool Weights Create. Selecionar como
arquivo de entrada o grid_teste_extrato. Salvar o arquivo de sada no diretrio Exercicio_cap3 com o
nome torre_1 e, em seguida selecionar a opo desejada.
2. A partir do arquivo torre_1 (no bloco de notas):
a) Identificar o significado do nmero 9 na primeira linha do arquivo.
b) Determinar a lgica da construo do arquivo.
Dicas: Cada dupla de linhas subsequentes (linhas 2 e 3, 4 e 5, etc.) apresentam a
informao-chave.
EXERCCIO 3.5
Repetir o Exerccio 3.4 com a distncia da Torre, contiguidade 2, e comentar as diferenas, se
houverem.
EXERCCIO 3.6
Pgina 3-16
EXERCCIO 3.7
1. Determinar a matriz de proximidade no programa TerraView.
Dica: Aps abrir o arquivo, selecionar Anlise Matriz de Proximidade Criar Matriz de
Proximidade. Selecionar a opo Contiguidade e salvar no diretrio Exerccio_cap3 o arquivo como o
nome contiguidade_terraview.
2. Comparar, no bloco de notas, os arquivos obtidos com o GeoDa com o do TerraView. Verificar os
relacionamentos e diferenas, se houverem.
Pgina 3-17
Pelo Clculo das Probabilidades, a distncia aleatria entre os pontos, r(E), calculada pela
expresso
A distncia entre os pontos na distribuio observada baseia-se nos vizinhos mais prximos
de cada ponto, indicada por uma mdia, r(A).
Na Figura 3.13, as setas indicam o vizinho mais prximo de cada um dos pontos na rea
considerada.
Pgina 3-18
A distncia, em quilmetros, entre cada ponto e seu vizinho mais prximo, indicada por d,
est na tabela 3.5. Quando houver mais de um vizinho mais prximo, optar por um deles, j
que as distncias so iguais. O ponto mais prximo do ponto 2 o ponto 4, do 9 a 10 e
assim sucessivamente, conforme a Tabela 3.5.
Distncia (km)
12
12
20
10
10
7
7
16
20
18
11
13
12
15
14
15 e 17
18
17
caso a distribuio fosse aleatria. Supondo uma rea de 9.000km , a densidade p de pontos
2
Pgina 3-19
aleatria seria:
Interpretao:
a) em uma distribuio aleatria, R=1.
b) sob condies de agregao mxima, R=0, uma vez que todos os pontos ocupam o
mesmo local e a distncia ao vizinho mais prximo , portanto, 0.
c) sob condies de espaamento mximo, os pontos sero distribudas em um padro
hexagonal, e cada ponto (exceto os da periferia) sero equidistantes de seis outros
pontos. Neste caso, a distncia mdia ao vizinho mais prximo ser maximizada e R =
2,1491.
Desse modo, quanto mais prximo R for de 1, maior a tendncia aleatoriedade.
Pelo resultado obtido, a distribuio de pontos da Figura 3.13 pode ser considerada aleatria.
EXERCCIO 3.8
Determinar, no programa GeoDa, a distncia ao vizinho mais prximo das capitais brasileiras.
Dicas:
1) Selecionar o arquivo Capitais e criar um arquivo de matriz de proximidade com a opo kNearest Neighbor com o valor 1.
2) Exportar como Near1.
3) Abrir o arquivo Near1 no bloco de notas e verificar os resultados, identificando os valores
direita de cada linha da tabela e concluindo sobre a coerncias deles.
4) Repetir o procedimento no ArcGIS e conferir os resultados.
Dica: No ArcGIS, selecione no Toolbox Analysis Tools Proximity Near.
4) Concluir sobre a distribuio das cidades: agrupada, regular ou aleatria? Justificar.
wi, j yj
i = j=1n
wi, j
j=1
onde
Wi,j o elemento
nmero de reas.
Exemplo 3.6 Determinar a mdia espacial mvel para a rea A, Figura 3.14. considerando a
proximidade pela relao de fronteiras.
20
24
15
Pgina 3-21
w
y
Aj
j
y
W
y
W
y
W
y
0
x
20
1
x
15
1
x
24
0
x
5
j
=
A
,
B
,
C
,
D W
AA
A
AB
B
AC
C
AD
D
A 4
W
W
0
W
AA
AB
AC
AD
Aj
j
=
1
0
x
20
1
x
15
1
x
24
0
x
5
0
x
20
1
x
15
1
x
24
0
x
5
0
15
24
0 0
0 2
= 19,5
O valor do atributo da regio A em relao aos valores dos atributos das regies
vizinhas est na Figura 3.15
19,5
EXERCCIO 3.9
Determinar as mdias mveis para as regies B, C e D da Figura 3.14.
EXERCCIO 3.10
Representar, matricialmente, o clculo das mdias mveis
para as regies A, B, C e D da Figura 3.14.
EXERCCIO 3.11
1. Determinar, no TerraView, a mdia mvel espacial dos dados do arquivo grid_teste, considerando
a contiguidade como critrio para a matriz de vizinhana.
Pgina 3-22
Pgina 3-23
Quando h duas sries de dados, ou seja, duas variveis X e Y, as medidas estatsticas mais
comuns que podem ser usadas para indicar como essas duas sries se relacionam so a
covarincia e a correlao.
Para duas sries de dados, X (X1, X2,.) e Y(Y1,Y2... ), a covarincia fornece uma medida
absoluta do seu grau do relacionamento, sendo calculada pelo produto dos desvios para cada
varivel em relao sua mdia, ou seja, COV (X,Y) =
onde
A correlao, denotada por r, encontra-se sempre entre -1 e +1. Uma correlao prxima a
zero indica que as duas variveis no esto relacionadas linearmente. No entanto, pode
existir uma dependncia no linear. Assim, o resultado r = 0 deve ser investigado por outros
meios.
Usamos o termo correlao positiva quando r>0, e nesse caso medida que, em mdia, x
aumenta, y tambm aumenta, e correlao negativa quando r < 0 e, nesse caso, medida
que x aumenta, y diminui.
O valor de r est sempre entre -1 e +1, com r=0 correspondendo no associao linear.
Quanto maior o valor de r (positivo ou negativo), mais forte a associao linear. Nos
extremos, se r= +1 ou r= - 1, ento todos os pontos no grfico de disperso esto todos
exatamente na mesma linha reta. Por outro lado, se r=0 no existe nenhuma associao
linear.
Note que correlaes no dependem da escala de valores de x ou de y (por exemplo,
obteramos o mesmo valor se medssemos altura e peso em metros e quiilogramas ou em
ps e libras.)
No h regra fixa para descrever uma correlao em palavras, dado o valor numrico. Uma
das classificaes est no Quadro 3.1.
Interpretao
0,00
Nenhuma
0,00 -- 0,20
Bem fraca
Fraca
Moderada
Forte
Pgina 3-25
Muito forte
1,00
Perfeita
(i,j = 1, ..., n)
Onde wij a medida de proximidade entre o objeto i e os j situados na sua
vizinhana, e aij representa a associao entre o atributo do objeto i com os dos
demais objetos de sua vizinhana.
,
para (i,j = 1, ..., n), quando se analisa o conjunto de todos os objetos de toda a regio.
Os valores para o clculo desses indicadores podem ser as observaes originais ou,
mais apropriadamente, alguma transformao destas, a fim de lidar apenas com as
Pgina 3-26
equivalente a
ou
Pgina 3-27
Figura 3.16. Patrick Alfred Pierce Moran (July 14, 1917 September 19, 1988),
A hiptese implcita de estacionaridade de primeira e segunda ordens, o que torna o ndice sem
validade para dados no-estacionrios.
O termo estacionaridade tem sua origem em processos aleatrios. Por estacionaridade de processos
aleatrios entende-se como sendo aqueles cujas propriedades estatsticas no variam com o tempo.
No caso da anlise espacial, a estacionaridade do processo est associada com a estacionaridade no
espao, sendo descrita em termos de ordem: primeira ordem, segunda ordem etc. Os processos
estacionrios de primeira ordem devem ter mdia constante, independentemente da configurao
espacial dos pontos amostrados. A estacionaridade de segunda ordem implica que a funo de
autocorrelao depende somente da separao das observaes no espao e no no tempo.
O efeito da estacionaridade de primeira ordem est em desconsiderar o fato dos vizinhos terem
valores mais prximos que reas distantes, tendo em vista serem comparados mdia global, o que
torna o ndice maior do que deveria ser. A estacionaridade de segunda ordem (varincia constante)
faz com que os valores das varincias sejam menores nas regies com maior varincia e maior nas
reas com menor varincia.
Pgina 3-28
Os padres de proximidade, dados pela matriz espacial de pesos, W = (wij), indicam os elementos
que devem ser includos ou excludos.
covarincia, que depende fortemente da quantidade de valores (quanto mais valores, maior a
covarincia).
Para evitar essa influncia, divide-se pela soma das ponderaes utilizadas, ou seja,
Para padronizar esta covarincia, ficando adimensional, divide-se pela varincia dos dados:
Finalmente, a relao entre essas duas expresses gera o ndice, conhecido como I
de Moran,
Pgina 3-29
21
25
21
(25-21)
25
21
Clculo intermedirio
25
21
Resposta: I = 0,487
EXERCCIO 3.12
Determinar o ndice de Moran para a Figura 3.18.
B
20
Pgina 3-30
15
n n
n
w
(y
y
)(y
y
)
(k)
i
j
ij
i=
1 j=
1
I(K)
=
n
(y
y
)2
i
i=
1
EXERCCIO 3.13
1. Determinar o ndice de Moran para PIB do arquivo grid_teste no GeoDa, pelo critrio da distncia
da rainha, contiguidade 1.
Dica: Criar matrix de proximidade pelo critrio solicitado primeiramente e, em seguida, Space
Univariate Moran para determinar o ndice de Moran.
2. Observar que gerado um scatterplot.
3. Determinar o ndice de Moran no TerraView.
Dica: Anlise Estatstica Espacial Nmero de permutaes = 99.
4. Comparar os dois resultados.
estacionaridade.
Com essa considerao, define-se o ndice de Geary por
O valor desse ndice varia entre 0 e 2. O valor 1 indica no haver autocorrelao espacial.
Valores menores que 1 significam autocorrelao espacial negativa e maiores que 1,
autocorrelao positiva. Este ndice foi desenvolvido por Roy C. Geary (Figura 3.19).
Figura 3.19. Robert (Roy) Charles Geary (April 11, 1896 February 8, 1983)
EXERCCIO 3.14
Determinar o ndice de Geary para a situao da Figura 3.20.
3.4.1.3. Funes G e G*
Ao contrrio do ndice de Moran e do ndice de Geary, as funes G e G* apresentam
os valores dos desvios Zi e Zj combinados em relao mdia.
Pgina 3-32
w ij z i . z j
G=
i= 0 j= 0
n
n
zi . z j
i= 0 j= 0
para i j.
n
w z .z
ij i
G*=
i=0 j=0
n n
z .z
i
i=0 j=0
A principal diferena entre as funes G e G* que a primeira inclui, no numerador, a soma dos
valores de todos os vizinhos, exceto o valor no local i, ao passo que G* o considera.
EXERCCIO 3.15
Determinar os ndices G e G* para a situao da Figura 3.20.
Como vimos, o estimador de autocorrelao espacial I de Moran fornece um valor nico como medida
da associao espacial. Por outro lado, muitas vezes necessrio examinar padres numa escala
maior. Neste caso, preciso utilizar indicadores locais de associao espacial que possam ser
associados a diferentes localizaes de uma varivel distribuda espacialmente.
A utilizao destes indicadores em conjunto com os indicadores globais, refinam nosso conhecimento
sobre o processos que originam a dependncia espacial, e permitem avaliar diferentes regimes
espaciais existentes na rea de estudo, porque medem a associao espacial entre uma observao
i e sua vizinhana.
Entre seus requisitos, temos:
para i diferente de j
Pgina 3-35
Aps, classifica-se a variabilidade espacial em High-High (HH), Low-Low (LL), High-Low (HL) e LowHigh (LH), referindo-se ao valores de Zi e WZi , respectivamente.
Portanto um local que conste como High-Low, apresenta valores da varivel acima da mdia global e
abaixo da mdia local.
A figura 3.21 apresenta o Moran Map para o PIB dos Estados Brasileiros no ano de 2002 destacando
os estados brasileiros cujos PIBs encontrma-se acima ou abaixo da mdia global e acima ou abaixo
da mdia local, e que apresentam significncia estatstica. Os valores da significncia estatstica
podem ser vistos no LISA Map.. Tendo em vista a visualizao do Moran scatterplot fazer uma
comparao global e regional entre valores da varivel, preciso definir, nesse caso, a matriz de
proximidade ( no GeoDa, pelo comando Tools Weights)
Figura 3.21 Moran Map do PIB dos Estados brasileiros no ano de 2002.
Pgina 3-36
representados como High-High (HH) na parte superior-direita e como Low-Low (LL) na parte inferioresquerda. As regies de spatial outliers (autocorrelao negativa) encontramse na parte inferior
direita como High-Low (HL) e na parte superior esquerda como Low-High (LH).
A interpretao de High-High de uma regio acima da mdia global, entre vizinhos tambm acima
da mdia. O caso de High-Low de uma regio acima da mdia global e abaixo dos vizinhos.
Os valores do Map Moran, independentemente de sua significncia estatstica, podem ser
visualizados no Moran Scatterplot, conforme a Figura 3.22.
Figura 3.22 Diagrama de disperso do PIB dos Estados brasileiros no ano de 2002.
O DEM pode ser apresentado na forma de um mapa coropltico bidimensional, onde cada polgono
apresentado indicando-se seu quadrante no diagrama de espalhamento. Ele representa
espacialmente o relacionamento entre os valores dos desvios e os valores das mdias locais,
indicando diferentes regimes espaciais presentes nos dados.
EXERCCIO 3.16
1. Determinar o ndice Local de Moran (LISA) no TerraView com os dados do arquivo <grid_teste>.
Dica: Anlise - Estatstica Espacial Atributo VALOR1 - ndice Local de Moran (LISA)
Permutaes = 999 Prefixo da coluna = cont. Observar que foram criadas as as colunas contZ,
contWz e contMoranIndex.
2. Explicar o significado das colunas contZ, contWz, contMoranIndex. Selecionar 3 registros da tabela
e conferir os valores numricos.
Dica: preciso conhecer a mdia e o desvio-padro do VALOR1.
3. Construir os mapas coroplticos dos valores de contZ, contWz e contMoranIndex.
Dica: Boto direito sobre grid_teste Editar Legenda Modo = Quantil Atributo = <camada
a ser criado o mapa>.
Pgina 3-37
Pgina 3-38