Вы находитесь на странице: 1из 17

UNIVERSIDADE CASTELO BRANCO

INCURSOS

Módulo Análise Espacial

Ana Mônica de Britto Costa


Fernando Moreira da Silva
(Professores Responsáveis)

Manaus / 2007

1
REVISÃO CONCEITUAL

ESTATÍSTICA

A Estatística é a parte da matemática aplicada que se ocupa em obter


conclusões a partir de dados observados. É na análise e interpretação de dados
estatísticos que se torna possível o diagnóstico de uma determinada situação nos
sistemas geográficos, o conhecimento de seus problemas, a formulação de soluções
apropriadas e o planejamento objeto da ação.
Em geoprocessamento a estatística é usada para analisar as condições de
funcionamento de uma variável, bem como sua espacialidade. Para atingir esses fins
será necessário rever determinados conceitos.

1 - Estatística Descritiva ou Dedutiva

Relacionada com a coleta, análise, interpretação e apresentação dos dados


estatísticos, sem pretender tirar conclusões de caráter mais genérico.

2 - Estatística Indutiva ou Inferencial

A partir de uma amostra, estabelece hipóteses sobre a população de origem e


formula previsões fundamentando-se na teoria das probabilidades.

3 - Estatística Espacial

Genericamente, pode-se definir como a análise espacial de fenômenos


quantitativos posicionados no espaço, baseado nas teorias da estatística descritiva e
indutiva. Logo, consiste em compreender a distribuição espacial de determinados
fenômenos em diversas áreas do conhecimento, tais como: saúde, ambiente, geologia,
meteorologia, geografia, entre outras.

1 - ESTATÍSTICA DESCRITIVA OU DEDUTIVA

1.1 - POPULAÇÃO

É todo conjunto, finito ou infinito, que possui ao menos uma característica


em comum entre todos os seus elementos.

a) População Finita

É aquela população em que é possível enumerar todos os seus elementos.


Ex. Quantidade de alunos do Curso de Análise espacial

b) População Infinita

É aquela população em que não é possível enumerar todos os seus


elementos.
Ex. O número de espécies florísticas da biosfera.

2
1.1.1 - Características

a) Atributos
São todas as características de uma população que não podem ser medidas.
Ex. Cor, religião, estado civil, sexo.

b) Variáveis
São todas aquelas características que podem ser medidas. Dividem-se em:

b.1) Discretas
São aquelas variáveis que podem assumir somente particulares valores num
intervalo de observação. Ex. Número de filhos.

b.2) Contínuas
São aquelas variáveis que podem assumir quaisquer valores num intervalo
de observação. Ex. Idade.

1.1.2 - Amostragem

É o processo de coleta das informações de parte da população, “n”, chamada


amostra, mediante métodos adequados de seleção destas unidades. Ou seja, amostra é
uma parte da população adequadamente selecionada de acordo com uma regra ou plano.

Amostra ge m

XX X X X X XXX X
X X X XXX X
X X X X X X XXX X
X X X X XXX X
X XX X X X X XXX X
X X X X XXX X In ferên cia X X X X XXX X
X X X X XXX X
X X X XX
XX X X X X XXX X
X X XX X X
X X X XX X

Popula ç ão Amostra
Figura 1 - Relação entre população e espaço amostral.

1.2 - MEDIDAS DE TENDÊNCIA CENTRAL

São medidas que permitem representar um conjunto de dados relativos à


observação de determinado fenômeno de forma resumida. Assim, elas representam os
fenômenos pelos seus valores médios, em torno dos quais tendem a concentrar-se os
dados.

1.2.1 - Média

É uma medida estatística que representa um conjunto de valores observados.


Deve ser expressa na unidade da medida utilizada, e é representada por X ( que se lê X
Barra).

3
n

∑x
i =1
i
X =
n

Onde: xi são os valores individuais da amostra e n é o número de valores da amostra.


Ex. 1: Seja a área, em m2, das residências em um espaço geográfico dada por:
X: [10, 50, 50, 90, 110, 140, 250], calcular a média.

700
X= => X = 100m2
7

1.2.2 - Mediana
É uma medida estatística que divide exatamente ao meio um conjunto de
valores observados, ou seja, até o valor da mediana existem 50% dos valores
~
observados. Deve ser expressa na unidade da medida utilizada, sendo expressa por x
(que se lê X til).
Ex. 2: Baseado nos dados do exemplo 1, X: [10, 50, 50, 90, 110, 140, 250], calcule a
mediana.
~
X = 90m 2

Quando os dados estão formatados em classes e freqüências, a mediana é calculada por:

n
( −∑ f ).h
~
+ 2
ant
X = l med
f med

Onde lmed é o limite inferior da classe que contém a mediana, n o número de dados da
amostra, fant somatório das freqüências das classes anteriores à classe da mediana, h a
amplitude da classe que contém a mediana e fmed a freqüência simples da classe da
mediana.

1.2.3 - Moda
É uma medida estatística que representa o valor ou valores que mais se
^
repetem. Deve ser expressa na unidade da medida utilizada, sendo representada por x (
que se lê X chapéu) .
Ex. 3: Usando os dados do exemplo 1, X: [10, 50, 50, 90, 110, 140, 250], calcule a
moda.

Xˆ = 50m 2

Quando os dados estão formatados em classes e freqüências, a moda é calculada por:

Xˆ = l mod + ∆ 1
.h
(∆ + ∆ )
1 2

4
Onde lmod é o limite inferior da classe modal, d1 a diferença entre a freqüência da classe
da moda e da classe anterior, d2 a diferença entre a freqüência da classe da moda e da
classe posterior, h a amplitude da classe das classes.

1.3 - SEPARATRIZES

1.3.1 - Quartis (Qi)

Divide uma amostra em quatro partes iguais em um conjunto ordenado de


valores (Figura 2). Há três quartis correspondentes, respectivamente:
Primeiro quartil (Q1) – é o valor que antecede 25% dos dados da amostra.
Segundo quartil (Q2) – é o valor que antecede 50% dos dados da amostra, o que o
torna igual a mediana.
Terceiro quartil (Q3) – é o valor que antecede 75% dos dados da amostra.

1.3.2 - Decis (Di)

Divide os dados em dez partes iguais em um conjunto ordenado de valores.

1.3.3 - Percentis (Pi)

Divide os dados em cem partes iguais em um conjunto ordenado de valores.

0% 10% 50% 60% 70% 80% 90% 100%


20% 30% 40%
~
X
Q1 Q2 Q3
D1 D2 D3 D4 D5 D6 D7 D8 D9
P1................P25................ P50................ P75.............P99
Figura 2 - Representação gráfica, síntese, das Separatrizes.

1.4 - MEDIDAS DE DISPERSÃO

1.4.1 - Variância

É a média aritmética dos quadrados dos desvios contados em relação a


média aritmética. É um valor abstrato e não é dado em unidades da medida utilizada,
pois o seu resultado numérico já está elevado ao quadrado. É representado por σ2(
sigma quadrado).

5
(∑ x ) 2
∑x
2

σ n
2
= 2
n

Onde x são os dados observados e n o número de dados.


Observação: para um espaço amostral menor que 30, usa-se em vez de n, n-1, assim,

(∑ x ) 2
∑x
2

σ n
2
=
n −1

Ex 4: Calcular a variância da amostra: [10,50,50,90,110,140,250]

107400 − 700
σ2 =
6
= ( )
6233 m 2
2

1.4.2 - Desvio Padrão

É o valor positivo da raiz quadrada da variância. É uma medida estatística


que determina, em média, o afastamento dos valores observados em torno da sua média
aritmética, em termos absolutos e deveser expressa na unidade de medida utilizada. É
representada por σ ( sigma).

(∑ x ) 2
∑x −
σ =
n
n

Onde x são os dados observados e n o número de dados.


Observação: para um espaço amostral menor que 30, usa-se no denominador n-1, assim,

(∑ x ) 2
∑x
2

σ =
n −1
n

Ex 5: Conforme dados amostrais do exemplo anterior [10,50,50,90,110,140,250],


calcular desvio padrão.

σ= 6233 = 78,9m2

1.4.3 - Coeficiente de Variação

É a relação existente entre o desvio padrão e a média aritmética, sendo


expressa em percentagem.
σ
CV = * 100
X

6
Onde σ é o desvio padrão e X é a média aritmética

Ex 6: Conforme dados amostrais do exemplo anterior [10,50,50,90,110,140,250]],


calcular Coeficiente de Variação.

78,9
CV = * 100 = 78,9%
100

2 - ESTATÍSTICA INDUTIVA OU INFERENCIAL

2.1 - CORRELAÇÃO

É o estudo de relações existente entre duas ou mais variáveis.

2.1.1 - Correlação Linear Simples

Equaciona a relação linear existente entre duas variáveis (x,y), normalmente


usa-se o coeficiente de Pearson (r), dado por:

n∑ xy − ∑ x ∑ y
r=
[n∑ x 2
][
− (∑ x ) n∑ y 2 − (∑ y )
2 2
]
Interpretação Nebulosa da Correlação “r”

Correlação “r” Interpretação


0,00 Nula
|0,00| < r ≤|0,30| Fraca
|0,30| < r ≤|0,60| Média
|0,60| < r ≤|0,90| Forte
|0,90| < r ≤|0,99| Fortíssima
|1,00| Perfeita

2.2 - MODELOS DE REGRESSÃO

São equações matemáticas calculadas a partir de variáveis correlacionadas


que permitem, conhecendo os valores de uma das variáveis, predizer os valores da outra
variável. Existem vários tipos de regressão, variando conforme as amostras analisadas.

2.2.1 - Regressão Linear Simples


O comportamento entre duas variáveis em estudo se comportam de forma
linear.

Y = a + bX

7
Onde, a é o coeficiente linear e b o coeficiente angular, x e y são as variáveis estudadas.

2.2.2 - Regressão Polinomial

O comportamento das variáveis, y e x, seguem um polinômio de grau “n”.

Y = a + b1X + b2X2 + b3X3 + ......................+ bnXn

2.2.3 - Coeficiente de Explicação ou Determinação

Indicado para avaliar um modelo de regressão adotado e definido como o


coeficiente entre a variação explicada pela variação total (FONSECA; MARTINS;
TOLEDO, 1985), definido como:

b σxx
2
R =  • 100%
σyy

Onde σxx, σyy, σy1 e σy2 são os respectivos desvios padrões.

O Coeficiente de Explicação indica quantos por cento a variação explicada


pela regressão representa da variação total, logo devemos ter:

0 ≤ R2 ≤ 1

2.3 - SÉRIES TEMPORAIS

São observações registradas em função do tempo cronológico, sendo


simbolizadas pela função genérica y = f(t). Assim, estudos empíricos dependem, em
grande extensão, de dados arranjados em forma cronológica, tendo como objetivo
descrever a analisar o comportamento passado da série visando sua compreensão e,
consequentemente, previsão de cenários futuros.

21,0
Temperatura Mínima (ºC)

20,0
19,0
18,0
17,0
16,0
15,0
2000 2001 2002 2003 2004 2005 2006 2007
Ano

Gráfico 1 – Variação temporal da temperatura mínima do RN.

8
Aplicação dos conceitos de Estatística Descritiva usando o software EXCEL.
Ex 7: Sejam os dados de temperatura mínima (ºC), para diversas localidades:
Calcular Média, Mediana, Moda, Quartis, Desvio Padrão, Coeficiente de
Variação, Correlação Linear e a reta de regressão.

Tabele 1 - Temperatura Mínima (ºC)


Localidade Longitude Latitude Altitude T(ºC)
A 30 1 150 22,9
B 31 2 60 23,1
C 32 3 140 22,9
D 33 4 80 23,2
E 34 5 90 23,3
F 35 6 145 22,9
G 36 1 96 23,2
H 30 2 130 22,6
I 31 3 152 22,2
J 32 4 250 19,6
K 33 5 90 23,3
L 34 6 130 22,6
M 35 1 143 22,9
N 36 2 95 23,2
O 31 3 99 23,2
P 32 4 223 20,3
Q 33 5 220 20,0
R 34 6 225 20,3
S 35 1 80 23,9
T 36 2 76 23,9
U 31 3 85 23,8
V 32 4 93 23,4
X 33 5 97 23,1
Estatística Descritiva
Média 128 22,6
Mediana 99 23,1
Moda 80 22,9
Q1 90 22,6
Q2 99 23,1
Q3 148 23,3
Desvio Padrão 54,49 1,27
CV 42,50 5,60
CORREL 0,173271 -0,39538 -0,94523

9
Cálculo da reta de regressão (Y = a + bX) e coeficiente de regressão (R2):

y = -0,022x + 25,415

Temperatura Mínima
30,0
R2 = 0,8935
25,0
20,0
(ºC)
15,0
10,0
5,0
0,0
0 100 200 300
Altitude (m)

Gráfico 2 – Reta de regressão da temperatura mínima do RN.

3. ANÁLISE ESPACIAL

Consiste em compreender a distribuição espacial de determinados


fenômenos em diversas áreas do conhecimento, tais como: saúde, ambiente, geologia,
meteorologia, geografia, entre outras.

3.1 - TIPOS DE DADOS

a) De áreas

Estão associados a levantamentos populacionais, como censos e estatísticas


de saúde e que originalmente relacionam-se a indivíduos localizados em pontos
específicos do espaço e que usualmente são delimitados por polígonos fachados (setores
censitários, zonas de endereçamento postal, municípios).

b) Pontuais

Expressa fenômenos identificados como eventos isolados no espaço.


Exemplos: crimes, doenças, localização de espécies.

c) Superfícies contínuas

São relacionadas e estimadas em um conjunto de amostras de campo, que


podem estar regularmente ou irregularmente distribuídas. Exemplo: mapas geológicos,
topográficos, ecológicos, fitogeológicos e pedológicos.

3.2 - ÍNDICE DE MORAN

A abordagem estatística denominada Índice de Moran, é uma técnica simples


de representação da correlação de variáveis. Fundamentalmente, busca-se o
comportamento espacial segundo seu grau de dependência, em duas formas de
contextualização; uma global e uma regional.

10
Conforme Câmara et. al. (2004) o Índice Global de Moran (Ig) representa a
autocorrelação considerando apenas o primeiro vizinho. Sendo uma média do atributo
analisado para as “n” áreas em estudo, dado pela expressão:

∑∑W (Z − Z )(Z j − Z )
n n

ij i
i =1 i =1
Ig =
∑ (Z i − Z )
n 2

i =1

Onde, n é o número de áreas, Z i é o valor atributo analisado na área i, Z é o valor médio


do atributo na região em estudo e Wij os elementos da matriz normalizada.
O Índice de Moran Global (Ig) é um coeficiente com valores variando entre
-1 e +1, e os valores da significância (valores das permutações) sejam maior que 0,05.
Na tabela 2 podemos observar a aplicação do Ig, realizado por Costa et. al. (2007), para
a variável Índice de Desenvolvimento Humana (IDH) do Rio Grande do Norte (RN).
Verifica-se que no citado exemplo as variáveis apresentam autocorrelação.

Tabela 2 – Resultados do teste de autocorrelação espacial


VARIÁVEL ÍNDICE MORAN GLOBAL P-VALOR
IDH Municipal 0.222506 0.01
IDH Educação 0.239196 0.01
IDH Longevidade 0.189702 0.03
IDH Renda 0.313983 0.01
Fonte dos dados: Atlas de Desenvolvimento Humano Municipal

O Índice Local de Moran ( Ij ) representa o valor da correlação espacial


especifico para cada área i, a partir dos valores normalizados Zi do atributo analisado,
sendo dado por:

n
Zi ∑W
j =1
ij Zj
I i= n

∑Z
2
j
j =1

A nomenclatura dos símbolos é similar ao Índice Global do Moran.


Uma vez identificada a significância estatística do Índice Local de Moran (Ii)
podemos gerar um mapa e verificarmos as áreas que apresentaram correlação local
significativa, figura 3.

11
Figura 3 – Indicador local de autocorrelação (LISA) para IDHM do RN.
Fonte dos dados: Atlas de Desenvolvimento Humano Municipal, 2000.

3.2.1 Diagrama de Espalhamento de Moran

O diagrama de espalhamento de Moran é uma maneira adicional de


visualizar a dependência espacial. Construído com base nos valores normalizados
(valores de atributos subtraídos de sua média e divididos pelo desvio padrão), permite
analisar o comportamento da variabilidade espacial.
A idéia é comparar os valores normalizados do atributo numa área com a
média dos seus vizinhos, construindo um gráfico bidimensional de z (valores
normalizados) por wz (média dos vizinhos), que é dividido em quatro quadrantes, como
mostrado na figura 4. Os quadrantes podem ser interpretados como:
• Q1 (valores positivos, médias positivas) e Q2 (valores negativos, médias negativas):
indicam pontos de associação espacial positiva, no sentido que uma localização possui
vizinhos com valores semelhantes.
• Q3 (valores positivos, médias negativas) e Q4 (valores negativos, médias positivas):
indicam pontos de associação espacial negativa, no sentido que uma localização possui
vizinhos com valores distintos.

Figura 4 - Diagrama de Espalhamento de Moran .

12
O diagrama de espalhamento de Moran, também, pode ser apresentado na
forma de um mapa temático bidimensional no qual cada polígono é apresentado
indicando seu quadrante no diagrama de espalhamento. O diagrama de espalhamento
para o IDHM do RN pode ser visto na figura 5.

Figura 5 – Mapa de espalhamento de Moran para IDHM do RN.


Fonte dos dados: Atlas de Desenvolvimento Humano Municipal, 2000

O índice de Moran I é equivalente ao coeficiente de regressão linear que


indica a inclinação da reta de regressão (α) de wz em z. Evidentemente, o diagrama
reflete a estrutura espacial nas duas escalas de análise: vizinhança e tendência.
O diagrama de espalhamento de Moran também pode ser apresentado na forma de um
mapa temático bidimensional, no qual cada polígono é apresentado indicando-se seu
quadrante no diagrama de espalhamento.

3.3 - SKATER (ESPATIAL’KLUSTER ANALYSIS BY TREE EDGE


REMOVAL)

Consiste em particionar um território em regiões que possuem uma grande


homogeneidade interna com relação a atributos de interesse, tais como; características
sociais e econômicas ou ainda aspectos geográficos.
Para cada uma dessas pequenas áreas, existem informações sociais e
econômicas dos seus habitantes, tais como a renda média de seus habitantes e a
proporção de seus domicílios que são ligados à rede geral de esgoto.
O objetivo da regionalização por SKATER é produzir um novo mapa onde
as pequenas áreas do mapa inicial são agrupadas de acordo com seu grau de
similaridade em relação a estas variáveis, sejam sociais, econômicas ou geográficas. As
regiões formadas contêm pequenas áreas que são bastante homogêneas com relação a
todas as variáveis utilizadas. Ao mesmo tempo, em geral as pequenas áreas pertencentes
a regiões distintas serão bastante diferentes.
Em geral, a posição de cada área é o centróide geográfico (o centro de massa
do polígono que determina a área).
Sua formulação analítica consiste em considerar áreas geográficas contíguas
organizadas sob a forma de um mapa (Assunção, 2003). Associado a cada área, temos

13
um vetor de atributos ou características x = (x1; : : : ; xn) constituindo o perfil dessa
área. Na análise de conglomerados espaciais, podemos ter duas medidas de distância
entre quaisquer dois pares de áreas: uma baseada nas suas posições no espaço
geográfico, e outra baseada numa medida de distância baseada no espaço das variáveis.
A medida de distância geográfica pode ser simplesmente a distância euclidiana entre os
pontos que definem seus centróides no mapa num sistema de coordenadas qualquer ou
então uma variável indicadora de que as áreas partilham uma fronteira comum. A
medida de distância no espaço das variáveis também é chamada de dissimilaridade entre
as áreas. É comum tomar a distância euclidiana entre o vetor perfil de duas áreas como a
medida de dissimilaridade entre elas. É importante que as variáveis estejam
padronizadas de alguma forma antes de calcular essa distância pois, caso contrário, as
variáveis com maior variância vão tender a dominar o valor da dissimilaridade.
Na figura 6 podemos verificar a regionalização dos bens e serviços
(urbanos) juntamente com o total da população urbana oferecidos no RN conforme
análise espacial por SKATER.

Figura 6 – Análise de agrupamento dos bens e serviços do RN.


Fonte dos dados: Censo 2000.

3.4 - KERNEL

As técnicas de análise espacial dependem, essencialmente, da estimativa da


intensidade de ocorrência do processo pontual em toda a região de estudo. Uma forma
simples é usando uma função bidimensional aos eventos considerados, compondo uma
superfície cujo valor será proporcional a intensidade de eventos por unidade de área.
Essa função realiza uma contagem de todos os pontos dentro de uma região de
influência, ponderando-os pela distância de cada um até o ponto que está sendo
estimado, como mostra a figura 7.

14
Kernel K ( )

Largura

Figura 7 - Interpretação espacial da análise de Kernel (Câmara; Carvalho-2004)

Suponha que u1, u2,....un são localizações de n eventos observados em uma


região A e que u represente uma localização genérica cujo valor queremos estimar. O
estimador de intensidade é computado considerando os m eventos (u1,...ui+m-1) contidos
num raio de tamanho τ em torno de u e da distância d entre a posição e a i-ésima
amostra, a partir de funções cuja proposta de Kernel é:

3  hi2 
λˆτ = ∑ πτ 1 − 2 
3
 τ 

O estimador de intensidade é muito útil para nos fornecer uma visão geral da
distribuição espacial dos eventos. Trata-se de um indicador de fácil uso e interpretação
(Figura 8).

Figura 8 – Intensidade de homicídios em São Paulo.


Fonte dos Dados: Tutorial TerraView.

15
BIBLIOGRAFIA

ANDRIOTTI, J. L. S. Fundamento de Estatística e Geoestatística. São Leopoldo/RS.


Editora: Unisinos, 2005.

AZEVEDO, P. R. M. Introdução à estatística. Natal: EDUFRN, 2005.

BARBETTA, P. A. Estatística aplicada às ciências sociais. 5 ed. Florionó´polis: UFSC,


2005.

CÂMARA,G. CARVALHO, M. S. CRUZ, O. G. CORREA, V. Análise espacial de


áreas. In: Análise espacial de dados geográficos. Planaltina: EMBRAPA, 2004.

COSTA, S. F. Estatística aplicada. Estatística aplicada. São Paulo: Aleph, 2003

_________ Estatística aplicada à pesquisa em educação. Brasília: Plano Editora, 2004.

CUNHA, S. E. COUTINHO, M. T. C. Iniciação à estatística cursos profissionalizantes.


Belo Horizonte: Livraria Lê Editora LTDA, 1974.

CHRISTOFOLETTI, A. Modelagem de sistemas ambientais. São Paulo: Edgard


Blücher LTDA, 2002.

FONSECA, J. S.; MARTINS, G. A.; TOLEDO, G. L. Introdução a estatística. São


Paulo: Atlas, 1985.

GRECO, A. Estatística para concurso. Porto Alegre: Sagro – DC LUZZATTO, 1994.

LANDIM, P. M. B. Análise Estatística de dados geológicos. São Paulo: UNESP, 1998.

LINDGREN, C. E. Análise de dados. Rio de Janeiro: COOPE / UFRJ, 1977.

LLAMAS, L.; GORRIDO, R.; CEDRAZ, M.; PEIXOTO, H. Informações matemáticas


aplicadas à gestão de recursos hídricos: coleção águas, 1. Salvador: SRH/BA –
SRH/MMA – UFBA, 2001.

MARTINS, G. A. DONAIRE, D. Princípios de estatística. São Paulo: Atlas, 1987.

MINGOTI, S. A. Análise de dados através de métodos de estatística multivariada: uma


abordagem aplicada. Belo Horizonte: Editora UFMG, 2005.

MOREIRA, J. S. Elementos de estatística. 5 ed. São Paulo: Atlas S. A. 1968.

OLIVEIRA, T. F. R. Estatística na escola. Rio de Janeiro: Ao Livro Técnico A. S.1974.

PAZZA, G. Introdução à Engenharia da confiabilidade. Caxias do Sul: EDUCS, 2002.

RODRIGUES, P.C. Bioestatística. 3 ed. Niterói: EDUFF, 2002.

16
TANAKA, O. K. PEREIRA, W. Estatística conceitos básicos. São Paula: McGraw –
Hill, 1990.

TUCCI, C. E. M. Regionalização de vazões. Rio Grande do Sul: UFRGS, 2002.

TUTORIAL DO TERRAVIEW. Instituto de Nacional de Pesquisa Espacial: São José


dos Compus: http://www.dpi.inpe.br/terraview/php/docs.php?body=Tutorial_i .
22/08/2007.

17

Вам также может понравиться