Вы находитесь на странице: 1из 189

SUMÁRIO

1. ANÁLISE ESPACIAL E GEOPROCESSAMENTO................................................4

1.1 INTRODUÇÃO ..................................................................................................4

1.2 TIPOS DE DADOS EM ANÁLISE ESPACIAL ...............................................6

1.3 REPRESENTAÇÃO COMPUTACIONAL DE DADOS GEOGRÁFICOS .....9

1.4 CONCEITOS BÁSICOS EM ANÁLISE ESPACIAL .....................................14

1.5 O PROCESSO DA ANÁLISE ESPACIAL .....................................................17

1.6 CONCLUSÕES ................................................................................................21

2 ANÁLISE ESPACIAL DE EVENTOS ...................................................................30

2.1 INTRODUÇÃO ................................................................................................30

2.2 CARACTERIZAÇÃO DE DISTRIBUIÇÕES DE PONTOS ..........................32

2.3 ESTIMADOR DE INTENSIDADE ("KERNEL ESTIMATION") .................34

2.4 ESTIMADORES DE DEPENDÊNCIA ESPACIAL .......................................36

2.4.1 Método do Vizinho Mais Próximo ............................................................36

2.5 PROCESSO PONTUAL MARCADO .............................................................40

2.6 ESTUDOS CASO-CONTROLE ......................................................................40

3 ANÁLISE ESPACIAL DE SUPERFÍCIES ............................................................45

3.1 INTRODUÇÃO ................................................................................................45

3.2 MODELOS DETERMINÍSTICOS LOCAIS ...................................................48

3.3 SUPERFÍCIES DE TENDÊNCIA ....................................................................52

3.4 MODELOS ESTATÍSTICOS DE EFEITOS LOCAIS E GLOBAIS:


KRIGAGEM ................................................................................................................55

3.4.1 Fundamentação teórica ..............................................................................55

3.4.2 Determinação experimental do semivariograma .......................................58

3.4.3 Modelos teóricos........................................................................................60

3.5 KRIGAGEM .....................................................................................................64

3.5.1 Krigeagem ordinária ..................................................................................65


3.6 ESTUDO DE CASO .........................................................................................66

3.7 CONCLUSÕES ................................................................................................69

3.8 APÊNDICE .......................................................................................................71

3.8.1 Modelagem da anisotropia.........................................................................71

4 ANÁLISE ESPACIAL DE SUPERFÍCIES: O ENFOQUE DA GEOESTATÍSTICA


POR INDICAÇÃO ..........................................................................................................82

4.1 INTRODUÇÃO ................................................................................................82

4.2 INCERTEZAS LOCAIS ...................................................................................83

4.3 O ENFOQUE POR INDICAÇÃO ....................................................................85

4.4 ESTIMATIVA DE INCERTEZAS LOCAIS ...................................................91

4.5 ESTIMADORES ÓTIMOS PARA AS SUPERFÍCIES INTERPOLADAS....95

4.6 INCERTEZAS LOCAIS PARA ATRIBUTOS CATEGÓRICOS...................98

4.7 CLASSIFICADORES PARA ATRIBUTOS CATEGÓRICOS ....................100

4.8 MEDIDAS DE INCERTEZA PARA ATRIBUTOS CATEGÓRICOS .........100

5 ANÁLISE ESPACIAL DE ÁREAS......................................................................107

5.1 INTRODUÇÃO ..............................................................................................107

5.2 MODELOS DE DISTRIBUIÇÃO DE DADOS EM ÁREAS .......................109

5.3 PROBLEMAS DE ESCALA E A RELAÇÃO ÁREA-INDIVÍDUO ............110

5.4 ANÁLISE EXPLORATÓRIA ........................................................................113

5.4.1 Visualização de Dados.............................................................................113

5.4.2 Gráficos de Médias e Medianas...............................................................116

5.4.3 Análise de Autocorrelação Espacial ........................................................117

5.4.4 Matrizes de Proximidade Espacial ..........................................................117

5.4.5 Média Móvel Espacial .............................................................................118

5.4.6 Indicadores Globais de Autocorrelação Espacial: Índices de Moran e Geary


119

5.4.7 Variograma ..............................................................................................123

5.4.8 Diagrama de Espalhamento de Moran.....................................................125


5.4.9 Indicadores Locais de Associação Espacial ............................................127

5.5 ESTIMAÇÃO DE INDICADORES ...............................................................129

5.6 MODELOS DE REGRESSÃO...................... 13Erro! Indicador não definido.

5.6.1 Modelos com Efeitos Espaciais Globais .................................................135

5.6.2 Modelos de Regressão com Efeitos Espaciais Locais .............................137

5.6.3 Diagnóstico de Modelos com Efeitos Espaciais ......................................139

5.7 ESTIMAÇÃO DE MODELOS CONTÍNUOS A PARTIR DE DADOS DE


ÁREA ........................................................................................................................143

5.7.1 Estimador de Intensidade Não-Paramétrico ............................................143

5.7.2 Uso de Interpoladores Geoestatísticos.....................................................145

5.8 COMENTÁRIOS FINAIS ..............................................................................146

8 MODELAGEM DINÂMICA E GEOPROCESSAMENTO .................................151

8.1 INTRODUÇÃO ..............................................................................................151

8.2 PRINCÍPIOS BÁSICOS .................................................................................152

8.2.1 O Espaço ..................................................................................................154

8.2.2 O Tempo ..................................................................................................156

8.3 MODELOS .....................................................................................................160

8.3.1 Modelos Empíricos ..................................................................................161

8.3.2 Modelos de Sistemas ...............................................................................165

8.3.3 Autômatos Celulares................................................................................167

8.4 MODELAGEM DINÂMICA DE PROCESSOS FÍSICOS ...........................169

8.4.1 Aspectos Computacionais........................................................................169

8.4.2 PCRaster ..................................................................................................172

8.5 MODELAGEM DINÂMICA DE PROCESSOS URBANOS .......................177

8.5.1 Citylife .....................................................................................................177

8.5.2 Modelo Multi-Escala Integrado ...............................................................180

8.6 CONSIDERAÇÕES FINAIS..........................................................................186


1

ANÁLISE ESPACIAL E GEOPROCESSAMENTO


=
Gilberto Câmara
Antônio Miguel Monteiro
Suzana Druck Fucks
Marilia Sá Carvalho=

1.1 INTRODUÇÃO

`çãéêÉÉåÇÉê= ~= ÇáëíêáÄìá´©ç= Éëé~Åá~ä= ÇÉ= Ç~Ççë= çêáìåÇçë= ÇÉ= ÑÉå∑ãÉåçë=


çÅçêêáÇçë=åç= Éëé~´ç= Åçåëíáíìá= ÜçàÉ= ìã= Öê~åÇÉ= ÇÉë~Ñáç= é~ê~= ~= ÉäìÅáÇ~´©ç= ÇÉ=
èìÉëíπÉë= ÅÉåíê~áë= Éã= ÇáîÉêë~ë= •êÉ~ë= Çç= ÅçåÜÉÅáãÉåíçI= ëÉà~= Éã= ë~∫ÇÉI= Éã=
~ãÄáÉåíÉI=Éã=ÖÉçäçÖá~I=Éã=~Öêçåçãá~I=ÉåíêÉ=í~åí~ë=çìíê~ëK=q~áë=ÉëíìÇçë=îÉã=
ëÉ=íçêå~åÇç=Å~Ç~=îÉò=ã~áë=ÅçãìåëI=ÇÉîáÇç=¶=ÇáëéçåáÄáäáÇ~ÇÉ=ÇÉ=ëáëíÉã~ë=ÇÉ=
áåÑçêã~´©ç=ÖÉçÖê•ÑáÅ~=EpfdF=ÇÉ=Ä~áñç=Åìëíç=É=Åçã=áåíÉêÑ~ÅÉë=~ãáÖ•îÉáëK=bëíÉë=
ëáëíÉã~ë= éÉêãáíÉã= ~= îáëì~äáò~´©ç= Éëé~Åá~ä= ÇÉ= î~êá•îÉáë= Åçãç= éçéìä~´©ç= ÇÉ=
áåÇáî∞ÇìçëI=∞åÇáÅÉë=ÇÉ=èì~äáÇ~ÇÉ=ÇÉ=îáÇ~=çì=îÉåÇ~ë=ÇÉ=ÉãéêÉë~=åìã~=êÉÖá©ç=
~íê~î¨ë=ÇÉ=ã~é~ëK=m~ê~=í~åíçI=Ä~ëí~=Çáëéçê=ÇÉ=ìã=Ä~åÅç=ÇÉ=Ç~Ççë=É=ÇÉ=ìã~=
Ä~ëÉ= ÖÉçÖê•ÑáÅ~= EÅçãç= ìã= ã~é~= ÇÉ= ãìåáÅ∞éáçëFI= É= ç= pfd= ¨= Å~é~ò= ÇÉ=
~éêÉëÉåí~ê= ìã= ã~é~= ÅçäçêáÇç= éÉêãáíáåÇç= ~= îáëì~äáò~´©ç= Çç= é~Çê©ç= Éëé~Åá~ä=
Çç=ÑÉå∑ãÉåçK==
= ^ä¨ã=Ç~=éÉêÅÉé´©ç=îáëì~ä=Ç~=ÇáëíêáÄìá´©ç=Éëé~Åá~ä=Çç=éêçÄäÉã~I=¨=ãìáíç=
∫íáä= íê~Çìòáê= çë= é~ÇêπÉë= ÉñáëíÉåíÉë= Åçã= ÅçåëáÇÉê~´πÉë= çÄàÉíáî~ë= É=
ãÉåëìê•îÉáëI=Åçãç=åçë=ëÉÖìáåíÉë=Å~ëçëW=
• béáÇÉãáçäçÖáëí~ë= ÅçäÉí~ã= Ç~Ççë= ëçÄêÉ= çÅçêêÆåÅá~= ÇÉ= ÇçÉå´~ëK= ^=
ÇáëíêáÄìá´©ç= Ççë= Å~ëçë= ÇÉ= ìã~= ÇçÉå´~= Ñçêã~= ìã= é~Çê©ç= åç= Éëé~´ç\=
bñáëíÉ=~ëëçÅá~´©ç=Åçã=~äÖìã~=ÑçåíÉ=ÇÉ=éçäìá´©ç\=bîáÇÆåÅá~=ÇÉ=Åçåí•Öáç\=
s~êáçì=åç=íÉãéç\=
• aÉëÉà~JëÉ= áåîÉëíáÖ~ê= ëÉ= ÉñáëíÉ= ~äÖìã~= ÅçåÅÉåíê~´©ç= Éëé~Åá~ä= å~=
ÇáëíêáÄìá´©ç= ÇÉ= êçìÄçëK= oçìÄçë= èìÉ= çÅçêêÉã= Éã= ÇÉíÉêãáå~Ç~ë= •êÉ~ë=
Éëí©ç=ÅçêêÉä~Åáçå~Ççë=Åçã=Å~ê~ÅíÉê∞ëíáÅ~ë=ëµÅáçJÉÅçå∑ãáÅ~ë=ÇÉëë~ë=•êÉ~ë\=
• dɵäçÖçë= ÇÉëÉà~ã= Éëíáã~ê= ~= ÉñíÉåë©ç= ÇÉ= ìã= ÇÉéµëáíç= ãáåÉê~ä= Éã= ìã~=
êÉÖá©ç= ~= é~êíáê=ÇÉ= ~ãçëíê~ëK=mçÇÉJëÉ= ìë~ê= Éëë~ë= ~ãçëíê~ë= é~ê~= Éëíáã~ê= ~=
ÇáëíêáÄìá´©ç=Çç=ãáåÉê~ä=å~=êÉÖá©ç\==
• aÉëÉà~JëÉ= ~å~äáë~ê= ìã~= êÉÖá©ç= é~ê~= Ñáåë= ÇÉ= òçåÉ~ãÉåíç= ~Öê∞Åçä~K= `çãç=
ÉëÅçäÜÉê= ~ë= î~êá•îÉáë= ÉñéäáÅ~íáî~ë= Ó= ëçäçI= îÉÖÉí~´©çI= ÖÉçãçêÑçäçÖá~= Ó= É=
ÇÉíÉêãáå~ê= èì~ä= ~= ÅçåíêáÄìá´©ç= ÇÉ= Å~Ç~= ìã~= ÇÉä~ë= é~ê~= ÇÉÑáåáê= Éã= èìÉ=
äçÅ~ä=ç=íáéç=ÇÉ=Åìäíìê~=¨=ã~áë=~ÇÉèì~Çç\=
= qçÇçë= ÉëëÉë= éêçÄäÉã~ë= Ñ~òÉã= é~êíÉ= Ç~= ~å•äáëÉ= Éëé~Åá~ä= ÇÉ= Ç~Ççë=
ÖÉçÖê•ÑáÅçëK= ^= ÆåÑ~ëÉ= Ç~= ^å•äáëÉ= bëé~Åá~ä= ¨= ãÉåëìê~ê= éêçéêáÉÇ~ÇÉë= É=
êÉä~Åáçå~ãÉåíçëI= äÉî~åÇç= Éã= Åçåí~= ~= äçÅ~äáò~´©ç= Éëé~Åá~ä= Çç= ÑÉå∑ãÉåç= Éã=
ÉëíìÇç= ÇÉ= Ñçêã~= Éñéä∞Åáí~K= lì= ëÉà~I= ~= áǨá~= ÅÉåíê~ä= ¨= áåÅçêéçê~ê= ç= Éëé~´ç= ¶=
~å•äáëÉ=èìÉ=ëÉ=ÇÉëÉà~=Ñ~òÉêK=bëëÉ=äáîêç=~éêÉëÉåí~=ìã=Åçåàìåíç=ÇÉ=ÑÉêê~ãÉåí~ë=
îáë~åÇç= êÉëéçåÇÉê= ~= Éëë~ë= èìÉëíπÉëK= mêÉíÉåÇÉJëÉ= ~ìñáäá~ê= çë= áåíÉêÉëë~Ççë= ~=
ÉëíìÇ~êI= Éñéäçê~ê= É= ãçÇÉä~ê= éêçÅÉëëçë= èìÉ= ëÉ= ÉñéêÉëë~ã= ~íê~î¨ë= ÇÉ= ìã~=
ÇáëíêáÄìá´©ç=åç=Éëé~´çI=~èìá=ÅÜ~ã~Ççë=ÇÉ=ÑÉå∑ãÉåçë=ÖÉçÖê•ÑáÅçëK==
= rã= ÉñÉãéäç= éáçåÉáêçI= çåÇÉ= áåíìáíáî~ãÉåíÉ= ëÉ= áåÅçêéçêçì= ~= Å~íÉÖçêá~=
Éëé~´ç=¶ë=~å•äáëÉë=êÉ~äáò~Ç~ë=Ñçá=êÉ~äáò~Çç=åç=ë¨Åìäç=ufu=éçê=gçÜå=påçïK=bã=
NURQI= çÅçêêá~= Éã= içåÇêÉë= ìã~= Ç~ë= î•êá~ë= ÉéáÇÉãá~ë= ÇÉ= ŵäÉê~= íê~òáÇ~ë= Ç~ë=
ðåÇá~ëK= mçìÅç= ëÉ= ë~Äá~= Éåí©ç= ëçÄêÉ= çë= ãÉÅ~åáëãçë= Å~ìë~áë= Ç~=ÇçÉå´~K= aì~ë=
îÉêíÉåíÉë=ÅáÉåí∞ÑáÅ~ë=éêçÅìê~î~ã=ÉñéäáÅ•Jä~W=ìã~=êÉä~Åáçå~åÇçJ~=~çë=ãá~ëã~ëI=
ÅçåÅÉåíê~Ççë= å~ë=êÉÖáπÉë= Ä~áñ~ë= É= é~åí~åçë~ë= Ç~=ÅáÇ~ÇÉI= É= çìíê~= ¶= áåÖÉëí©ç=
ÇÉ= •Öì~= áåë~äìÄêÉK= l= ã~é~= EcáÖìê~= NJNF= äçÅ~äáò~= ~= êÉëáÇÆåÅá~= Ççë= µÄáíçë=
çÅ~ëáçå~Ççë= éÉä~= ÇçÉå´~= É= ~ë= ÄçãÄ~ë= ÇÉ= •Öì~= èìÉ= ~Ä~ëíÉÅá~ã= ~= ÅáÇ~ÇÉI=
éÉêãáíáåÇç= îáëì~äáò~ê= Åä~ê~ãÉåíÉ= ìã~= ÇÉëí~ë= Ó= Éã= _êç~Ç= píêÉÉí= Ó= Åçãç= ç=
ÉéáÅÉåíêç= Ç~= ÉéáÇÉãá~K= bëíìÇçë= éçëíÉêáçêÉë= ÅçåÑáêã~ê~ã= Éëí~= ÜáéµíÉëÉI=
ÅçêêçÄçê~Ç~= éçê= çìíê~ë= áåÑçêã~´πÉë= í~áë= Åçãç= ~= äçÅ~äáò~´©ç= Çç= éçåíç= ÇÉ=
Å~éí~´©ç= ÇÉ= •Öì~= ÇÉëí~= ÄçãÄ~= ~= àìë~åíÉ= Eêáç= ~Ä~áñçF= Ç~= ÅáÇ~ÇÉI= Éã= äçÅ~ä=
çåÇÉ=~=ÅçåÅÉåíê~´©ç=ÇÉ=ÇÉàÉíçëI=áåÅäìëáîÉ=ÇÉ=é~ÅáÉåíÉë=Åçä¨êáÅçë=Éê~=ã•ñáã~K=
bëë~=¨=ìã~=ëáíì~´©ç=í∞éáÅ~=çåÇÉ=~=êÉä~´©ç=Éëé~Åá~ä=ÉåíêÉ=çë=Ç~Ççë=ÅçåíêáÄìáì=
ëáÖåáÑáÅ~íáî~ãÉåíÉ= é~ê~= ç= ~î~å´ç= å~= ÅçãéêÉÉåë©ç= Çç= ÑÉå∑ãÉåçI= ëÉåÇç= ìã=
Ççë=éêáãÉáêçë=ÉñÉãéäçë=Ç~=~å•äáëÉ=Éëé~Åá~äK=
Figura 1-1 - Mapa de Londres com óbitos por cólera identificados por pontos e poços de
água representados por cruzes.=

1.2 TIPOS DE DADOS EM ANÁLISE ESPACIAL

= ^= í~ñçåçãá~= ã~áë= ìíáäáò~Ç~= é~ê~= Å~ê~ÅíÉêáò~ê= çë= éêçÄäÉã~ë= ÇÉ= ~å•äáëÉ=


Éëé~Åá~ä=ÅçåëáÇÉê~=íêÆë=íáéçë=ÇÉ=Ç~ÇçëW=
• bîÉåíçë= çì= m~ÇêπÉë= mçåíì~áë= J= ÑÉå∑ãÉåçë= ÉñéêÉëëçë= ~íê~î¨ë= ÇÉ=
çÅçêêÆåÅá~ë= áÇÉåíáÑáÅ~Ç~ë= Åçãç= éçåíçë= äçÅ~äáò~Ççë= åç= Éëé~´çI=
ÇÉåçãáå~Ççë= éêçÅÉëëçë= éçåíì~áëK= p©ç= ÉñÉãéäçëW= äçÅ~äáò~´©ç= ÇÉ= ÅêáãÉëI=
çÅçêêÆåÅá~ë=ÇÉ=ÇçÉå´~ëI=É=äçÅ~äáò~´©ç=ÇÉ=Éëé¨ÅáÉë=îÉÖÉí~áëK==
• pìéÉêÑ∞ÅáÉë=`çåí∞åì~ë==J= Éëíáã~Ç~ë=~=é~êíáê=ÇÉ=ìã=Åçåàìåíç=ÇÉ=~ãçëíê~ë=
ÇÉ=Å~ãéçI=èìÉ=éçÇÉã=Éëí~ê=êÉÖìä~êãÉåíÉ=çì=áêêÉÖìä~êãÉåíÉ=ÇáëíêáÄì∞Ç~ëK=
rëì~äãÉåíÉI=ÉëíÉ=íáéç=ÇÉ=Ç~Ççë=¨=êÉëìäí~åíÉ=ÇÉ=äÉî~åí~ãÉåíç=ÇÉ=êÉÅìêëçë=
å~íìê~áëI= É= èìÉ= áåÅäìÉã= ã~é~ë= ÖÉçäµÖáÅçëI= íçéçÖê•ÑáÅçëI= ÉÅçäµÖáÅçëI=
ÑáíçÖÉçÖê•ÑáÅçë=É=éÉÇçäµÖáÅçëK=
• žêÉ~ë=Åçã=`çåí~ÖÉåë=É=q~ñ~ë=^ÖêÉÖ~Ç~ë=J=íê~í~ãJëÉ=ÇÉ=Ç~Ççë=~ëëçÅá~Ççë=
~=äÉî~åí~ãÉåíçë=éçéìä~Åáçå~áëI=Åçãç=ÅÉåëçë=É=Éëí~í∞ëíáÅ~ë=ÇÉ=ë~∫ÇÉI=É=èìÉ=
çêáÖáå~äãÉåíÉ= ëÉ= êÉÑÉêÉã= ~= áåÇáî∞Çìçë= äçÅ~äáò~Ççë= Éã= éçåíçë= ÉëéÉÅ∞ÑáÅçë=
Çç=Éëé~´çK=mçê=ê~òπÉë=ÇÉ=ÅçåÑáÇÉåÅá~äáÇ~ÇÉI=ÉëíÉë=Ç~Ççë=ë©ç=~ÖêÉÖ~Ççë=Éã=
ìåáÇ~ÇÉë= ÇÉ= ~å•äáëÉI= ìëì~äãÉåíÉ= ÇÉäáãáí~Ç~ë= éçê= éçä∞Öçåçë= ÑÉÅÜ~Ççë=
EëÉíçêÉë=ÅÉåëáí•êáçëI=òçå~ë=ÇÉ=ÉåÇÉêÉ´~ãÉåíç=éçëí~äI=ãìåáÅ∞éáçëFK==
= ^= é~êíáê= Ç~= Çáîáë©ç= ~Åáã~I= îÉêáÑáÅ~JëÉ= èìÉ= çë= éêçÄäÉã~ë= ÇÉ= ~å•äáëÉ=
Éëé~Åá~ä= äáÇ~ã= Åçã= Ç~Ççë= ~ãÄáÉåí~áë= É= Åçã= Ç~Ççë= ëçÅáçÉÅçå∑ãáÅçëK= bã=
~ãÄçë= çë= Å~ëçëI= ~= ~å•äáëÉ= Éëé~Åá~ä= ¨= Åçãéçëí~= éçê= ìã= Åçåàìåíç= ÇÉ=
éêçÅÉÇáãÉåíçë= ÉåÅ~ÇÉ~Ççë= Åìà~= Ñáå~äáÇ~ÇÉ= ¨= ~= ÉëÅçäÜ~= ÇÉ= ìã= ãçÇÉäç=
áåÑÉêÉåÅá~ä= èìÉ= ÅçåëáÇÉêÉ= ÉñéäáÅáí~ãÉåíÉ= çë= êÉä~Åáçå~ãÉåíçë= Éëé~Åá~áë=
éêÉëÉåíÉë=åç=ÑÉå∑ãÉåçK=bã=ÖÉê~äI=ç=éêçÅÉëëç=ÇÉ=ãçÇÉä~ÖÉã=¨=éêÉÅÉÇáÇç=ÇÉ=
ìã~=Ñ~ëÉ=ÇÉ=~å•äáëÉ=Éñéäçê~íµêá~I=~ëëçÅá~Ç~=¶=~éêÉëÉåí~´©ç=îáëì~ä=Ççë=Ç~Ççë=
ëçÄ= Ñçêã~=ÇÉ= Öê•ÑáÅçë= É= ã~é~ë= É= ~= áÇÉåíáÑáÅ~´©ç=ÇÉ= é~ÇêπÉë=ÇÉ= ÇÉéÉåÇÆåÅá~=
Éëé~Åá~ä=åç=ÑÉå∑ãÉåç=Éã=ÉëíìÇçK==
= kç= Å~ëç= ÇÉ= ~å•äáëÉ= ÇÉ= é~ÇêπÉë= ÇÉ= éçåíçëI= ç= çÄàÉíç= ÇÉ= áåíÉêÉëëÉ= ¨= ~=
éêµéêá~= äçÅ~äáò~´©ç= Éëé~Åá~ä= Ççë= ÉîÉåíçë= Éã= ÉëíìÇçK= `çãç= å~= ëáíì~´©ç=
~å~äáë~Ç~= éçê= påçïI= ç= çÄàÉíáîç= ¨= ÉëíìÇ~ê= ~= ÇáëíêáÄìá´©ç= Éëé~Åá~ä= ÇÉëíÉë=
éçåíçëI= íÉëí~åÇç= ÜáéµíÉëÉë= ëçÄêÉ= ç= é~Çê©ç= çÄëÉêî~ÇçW= ëÉ= ¨= ~äÉ~íµêáçI= çì= ~ç=
Åçåíê•êáç= ëÉ= ~éêÉëÉåí~JëÉ= Éã= ~ÖäçãÉê~Ççë= çì= êÉÖìä~êãÉåíÉ= ÇáëíêáÄì∞ÇçK= °=
í~ãĨã= ç= Å~ëç= Ççë= ÉëíìÇçë= îáë~åÇç= Éëíáã~ê= ç= ëçÄêÉJêáëÅç= ÇÉ= ÇçÉå´~ë= ~ç=
êÉÇçê= ÇÉ= ìëáå~ë= åìÅäÉ~êÉëK= lìíêç= Å~ëç= ¨= Éëí~ÄÉäÉÅÉê= ç= êÉä~Åáçå~ãÉåíç= ÇÉ=
çÅçêêÆåÅá~= ÇÉ= ÉîÉåíçë= Åçã= Å~ê~ÅíÉê∞ëíáÅ~ë= Çç= áåÇáî∞ÇìçI= áåÅçêéçê~åÇç= ~=
éçëëáÄáäáÇ~ÇÉ= ÇÉ= Ü~îÉê= ~äÖìã= Ñ~íçê= ~ãÄáÉåí~äI= Çç= èì~ä= å©ç= ëÉ= ÇáëéπÉ= ÇÉ=
Ç~ÇçëK= mçê= ÉñÉãéäçI= ëÉê•= èìÉ= ~= ãçêí~äáÇ~ÇÉ= éçê= íìÄÉêÅìäçëÉI= ãÉëãç=
ÅçåëáÇÉê~åÇç=çë=Ñ~íçêÉë=ÇÉ=êáëÅç=ÅçåÜÉÅáÇçëI=î~êá~=Åçã=ç=äçÅ~ä=ÇÉ=êÉëáÇÆåÅá~=
Çç= é~ÅáÉåíÉ\= ^ë= í¨ÅåáÅ~ë= ìëì~áë= åç= íê~í~ãÉåíç= ÇÉëíÉ= íáéç= ÇÉ= éêçÄäÉã~= ë©ç=
~ÄçêÇ~Ç~ë=åç=`~é∞íìäç=OK=
= `çãç= ÉñÉãéäçI= ~=cáÖìê~=NJO= áäìëíê~= ~=~éäáÅ~´©ç= Ç~ë= ~å•äáëÉ= ÇÉ= é~ÇêπÉë=
éçåíì~áë= é~ê~= ç= Å~ëç= ÇÉ= ãçêí~äáÇ~ÇÉ= éçê= Å~ìë~ë= ÉñíÉêå~ë= Éã= mçêíç= ^äÉÖêÉI=
Åçã=çë=Ç~Ççë=ÇÉ=NVVSI=êÉ~äáò~Ç~=éçê=páãçåÉ=p~åíçë==É=`Üêáëíçî~ã=_~êÅÉääçëI=
Ç~= cfl`orwK= ^= äçÅ~äáò~´©ç= Ççë= ÜçãáÅ∞Çáçë= EîÉêãÉäÜçFI= = ~ÅáÇÉåíÉë= ÇÉ=
íêßåëáíç=E~ã~êÉäçF=É=ëìáÅ∞Çáçë=E~òìäF=Éëí~=ãçëíê~Ç~=å~=cáÖìê~=NJO=E¶=ÉëèìÉêÇ~FK=
È=ÇáêÉáí~I=~éêÉëÉåí~JëÉ=ìã~=ëìéÉêÑ∞ÅáÉ=é~ê~=~=áåíÉåëáÇ~ÇÉ=Éëíáã~Ç~I=èìÉ=éçÇÉ=
ëÉê= éÉåë~Ç~= Åçãç= ~= “íÉãéÉê~íìê~= Ç~= îáçäÆåÅá~ÒK= ^= ëìéÉêÑ∞ÅáÉ= áåíÉêéçä~Ç~=
ãçëíê~=ìã=é~Çê©ç=ÇÉ=ÇáëíêáÄìá´©ç=ÇÉ=éçåíçë=Åçã=ìã~=ÑçêíÉ=ÅçåÅÉåíê~´©ç=åç=
ÅÉåíêç=Ç~=ÅáÇ~ÇÉ=É=ÇÉÅêÉëÅÉåÇç=Éã=ÇáêÉ´©ç=~çë=Ä~áêêçë=ã~áë=~Ñ~ëí~ÇçëK=

Figura 1-2 Distribuição de casos de mortalidade por causas externas em Porto Alegre em
1996 e estimador de intensidade.
= m~ê~=~=~å•äáëÉ=ÇÉ=ëìéÉêÑ∞ÅáÉëI=ç=çÄàÉíáîç=¨=êÉÅçåëíêìáê=~=ëìéÉêÑ∞ÅáÉ=Ç~=èì~ä=
ëÉ=êÉíáêçì=É=ãÉÇáì=~ë=~ãçëíê~ëK=`çãç=ÉñÉãéäçI=ÅçåëáÇÉêÉJëÉ=~=ÇáëíêáÄìá´©ç=ÇÉ=
éÉêÑáë=É=~ãçëíê~ë=ÇÉ=ëçäç=é~ê~=ç=Éëí~Çç=ÇÉ=p~åí~=`~í~êáå~=É=•êÉ~ë=éêµñáã~ëI=É=
ç=ã~é~=ÇÉ=ÇáëíêáÄìá´©ç=Éëé~Åá~ä=Ç~=î~êá•îÉä=ë~íìê~´©ç=éçê=Ä~ëÉëI=éêçÇìòáÇçë=
éçê=páãçåÉ=_∏åáëÅÜI=Çç=fkmbI=É=~éêÉëÉåí~Ççë=å~=cáÖìê~=NJPKK=
=

55,437 (%)

* Perfis
* Amostras
8,250
=
Figura 1-3 - Distribuição de perfis e amostras de solo em Santa Catarina (esquerda) e =
distribuição contínua estimada para a variável saturação por bases (direita).

= `çãç= Ñçá= Åçåëíêì∞Çç= ÉëíÉ= ã~é~\= ^ë= ÅêìòÉë= ÇÉëí~Å~Ç~ë= áåÇáÅ~ã= ~=


äçÅ~äáò~´©ç= Ççë= éçåíçë= ÇÉ= ÅçäÉí~= ÇÉ= ~ãçëíê~ë= Çç= ëçäçX= ~= é~êíáê= ÇÉëí~ë=
ãÉÇáÇ~ëI= Ñçá= Éëíáã~Çç= ìã= ãçÇÉäç= ÇÉ= ÇÉéÉåÇÆåÅá~= Éëé~Åá~äI= èìÉ= éÉêãáíáì= ~=
áåíÉêéçä~´©ç= Ç~= ëìéÉêÑ∞ÅáÉ= ~éêÉëÉåí~Ç~= åç= ã~é~K= l= ãçÇÉäç= áåÑÉêÉåÅá~äI=
ÇáëÅìíáÇç=Éã=ã~áçê=ÇÉí~äÜÉ=åçë=Å~é∞íìäçë=P=É=QI=íÉã=éçê=çÄàÉíáîç=èì~åíáÑáÅ~ê=
~=ÇÉéÉåÇÆåÅá~=Éëé~Åá~ä=ÉåíêÉ=çë=î~äçêÉë=Ç~ë=~ãçëíê~ëK=bëíÉ=ãçÇÉäç=ìíáäáò~=~ë=
í¨ÅåáÅ~ë= Ç~= ÖÉçÉëí~í∞ëíáÅ~I= Åìà~= ÜáéµíÉëÉ= ÅÉåíê~ä= ¨= ç= ÅçåÅÉáíç= ÇÉ=
Éëí~Åáçå~êáÉÇ~ÇÉI=èìÉ=ëìéπÉ=ìã=Åçãéçêí~ãÉåíç=ÜçãçÖÆåÉç=Ç~=Éëíêìíìê~=ÇÉ=
ÅçêêÉä~´©ç= Éëé~Åá~ä=å~= êÉÖá©ç= ÇÉ= ÉëíìÇçI= É= ëÉê•=ÇáëÅìíáÇç=å~= ëÉ´©ç= NKQ=ÇÉëíÉ=
Å~é∞íìäçK= `çãç= Ç~Ççë= ~ãÄáÉåí~áë= ë©ç= êÉëìäí~åíÉë= ÇÉ= ÑÉå∑ãÉåçë= å~íìê~áë= ÇÉ=
äçåÖ~= É= ã¨Çá~= Çìê~´©ç= EÅçãç= çë= éêçÅÉëëçë= ÖÉçäµÖáÅçëFI= ~ë= ÜáéµíÉëÉë= ÇÉ=
Éëí~Åáçå~êáÉÇ~ÇÉ= ¨= ÇÉÅçêêÉåíÉ= Ç~= êÉä~íáî~= Éëí~ÄáäáÇ~ÇÉ= ÇÉëíÉë= éêçÅÉëëçëX= å~=
éê•íáÅ~I=áëíç=áãéäáÅ~=èìÉ=~=Éëí~Åáçå~êáÉÇ~ÇÉ=Éëí•=éêÉëÉåíÉ=åìã=Öê~åÇÉ=å∫ãÉêç=
ÇÉ= ëáíì~´πÉëK= aÉîÉ= ëÉê= çÄëÉêî~Çç= èìÉ= ~= Éëí~Åáçå~êáÉÇ~ÇÉ= ¨= ìã~= ÜáéµíÉëÉ= ÇÉ=
íê~Ä~äÜç= å©ç= êÉëíêáíáî~= å~= ~ÄçêÇ~ÖÉã= ÇÉ= éêçÄäÉã~ë= å©çJÉëí~Åáçå•êáçëK=
j¨íçÇçë= Åçãç= âêáÖÉ~ÖÉã= ìåáîÉêë~äI= Ñ~áJâI= ÇÉêáî~= ÉñíÉêå~I= âêáÖÉ~ÖÉã=
ÅçäçÅ~Ç~I=âêáÖÉ~ÖÉã=Çáëàìåíáî~==ÇÉëíáå~ãJëÉ=~ç=íê~í~ãÉåíç=ÇÉ=ÑÉå∑ãÉåçë=å©ç=
Éëí~Åáçå•êáçëK=

= kç=Å~ëç=ÇÉ=~å•äáëÉ=ÇÉ=•êÉ~ëI=ÇÉëÉåîçäîáÇ~=åç=`~é∞íìäç=RI=çë=Ç~Ççë=ë©çI=
Éã=Öê~åÇÉ=é~êíÉI=çêáìåÇçë=ÇÉ=äÉî~åí~ãÉåíçë=éçéìä~Åáçå~áë=í~áë=Åçãç=ÅÉåëçëI=
Éëí~í∞ëíáÅ~ë=ÇÉ=ë~∫ÇÉ=É=Å~Ç~ëíê~ãÉåíç=ÇÉ=áãµîÉáëK=bëí~ë=•êÉ~ë=ë©ç=ìëì~äãÉåíÉ=
ÇÉäáãáí~Ç~ë= éçê= éçä∞Öçåçë= ÑÉÅÜ~Ççë= çåÇÉ= ëÉ= ëìéπÉ= Ü~îÉê= ÜçãçÖÉåÉáÇ~ÇÉ=
áåíÉêå~I= çì= ëÉà~I= ãìÇ~å´~ë= áãéçêí~åíÉë= ëµ= çÅçêêÉã= åçë= äáãáíÉëK=
bîáÇÉåíÉãÉåíÉI= Éëí~= ¨= ìã~= éêÉãáëë~= åÉã= ëÉãéêÉ= îÉêÇ~ÇÉáê~I= Ç~Çç= èìÉ=
ÑêÉèΩÉåíÉãÉåíÉ= ~ë= ìåáÇ~ÇÉë= ÇÉ= äÉî~åí~ãÉåíç= ë©ç= ÇÉÑáåáÇ~ë= éçê= Åêáí¨êáçë=
çéÉê~Åáçå~áë=EëÉíçêÉë=ÅÉåëáí•êáçëF=çì=éçä∞íáÅçë=EãìåáÅ∞éáçëF=É=å©ç=Ü•=èì~äèìÉê=
Ö~ê~åíá~= èìÉ= ~= ÇáëíêáÄìá´©ç= Çç= ÉîÉåíç= ëÉà~= ÜçãçÖÆåÉ~= ÇÉåíêç= ÇÉëí~ë=
ìåáÇ~ÇÉëK= bã= é~∞ëÉë= Åçã= Öê~åÇÉë= Åçåíê~ëíÉë= ëçÅá~áë= Åçãç= ç= _ê~ëáäI= ¨=
ÑêÉèΩÉåíÉ= èìÉ= Öêìéçë= ëçÅá~áë= Çáëíáåíçë= ÉëíÉà~ã= ~ÖêÉÖ~Ççë= Éã= ìã~= ãÉëã~=
êÉÖá©ç= ÇÉ= ÅçäÉí~= Ó= Ñ~îÉä~ë= É= •êÉ~ë= åçÄêÉë= Ó= êÉëìäí~åÇç= Éã= áåÇáÅ~ÇçêÉë=
Å~äÅìä~Ççë=èìÉ=êÉéêÉëÉåí~ã=~=ã¨Çá~=ÉåíêÉ=éçéìä~´πÉë=ÇáÑÉêÉåíÉëK=bã=ÇáîÉêë~ë=
êÉÖáπÉëI= ~ë= ìåáÇ~ÇÉë= ~ãçëíê~áë= ~éêÉëÉåí~ã= ~áåÇ~=ÇáÑÉêÉå´~ë= áãéçêí~åíÉë= Éã=
éçéìä~´©ç= É= •êÉ~K= kÉëíÉ= Å~ëçI= í~åíç= ~= ~éêÉëÉåí~´©ç= Éã= ã~é~ë= Åçêçéä¨íáÅçë=
Åçãç=ç=Å•äÅìäç=ëáãéäÉë=ÇÉ=áåÇáÅ~ÇçêÉë=éçéìä~Åáçå~áë=éçÇÉ=äÉî~ê=~=Çáëíçê´πÉë=
åçë= áåÇáÅ~ÇçêÉë= çÄíáÇçë= É= ëÉê•= éêÉÅáëç= ìíáäáò~ê= í¨ÅåáÅ~ë= ÇÉ= ~àìëíÉ= ÇÉ=
ÇáëíêáÄìá´πÉëK==
= `çãç=ÉñÉãéäç=ÇÉ=Ç~Ççë=~ÖêÉÖ~Ççë=éçê=•êÉ~ëI=ÅçåëáÇÉêÉJëÉ=~=cáÖìê~=NJQ=
EÉëèìÉêÇ~FI= èìÉ= ~éêÉëÉåí~= ~= ÇáëíêáÄìá´©ç= Éëé~Åá~ä= Çç= ∞åÇáÅÉ= ÇÉ=
ÉñÅäìë©çLáåÅäìë©ç= ëçÅá~ä= ÇÉ= p©ç= m~ìäçI= éêçÇìòáÇç= éÉä~= ÉèìáéÉ= äáÇÉê~Ç~= éÉä~=
éêçÑK= ^äÇ~∞ò~= péçë~íá= Emr`LpmFK= lë= áåÇáÅ~ÇçêÉë= ÇÉ= ÉñÅäìë©çLáåÅäìë©ç= ëçÅá~ä=
Ñçê~ã=éêçÇìòáÇçë=~=é~êíáê=ÇÉ=Ç~Ççë=ÅçäÉí~Ççë=åçë=VS=Çáëíêáíçë=ÇÉ=p©ç=m~ìäçI=
Åçã= Ä~ëÉ= åç= ÅÉåëç= ÇÉ= NVVNK= ^= é~êíáê= ÇÉëíÉ= ã~é~I= Ñçá= éçëë∞îÉä= Éñíê~áê= ìã=
~ÖêÉÖ~ãÉåíçë= ÇÉ= ÉñÅäìë©ç= É= áåÅäìë©ç= ëçÅá~äI= ãçëíê~Ççë= å~= cáÖìê~= NJQ==
EÇáêÉáí~FI=èìÉ=áåÇáÅ~ã=çë=ÉñíêÉãçë=ÇÉ=ÉñÅäìë©ç=É=áåÅäìë©ç=ëçÅá~ä=å~=ÅáÇ~ÇÉK=

= =

Figura 1-4- Mapa de Exclusão/Inclusão Social de São Paulo (1991) e agrupamentos de =


exclusão social (Zonas Leste e Sul) e inclusão social (centro).=
=

1.3 REPRESENTAÇÃO COMPUTACIONAL DE DADOS GEOGRÁFICOS

= l= íÉêãç= páëíÉã~ë= ÇÉ= fåÑçêã~´©ç= dÉçÖê•ÑáÅ~= EpfdF= ¨= ~éäáÅ~Çç= é~ê~=


ëáëíÉã~ë= èìÉ= êÉ~äáò~ã= ç= íê~í~ãÉåíç= Åçãéìí~Åáçå~ä= ÇÉ= Ç~Ççë= ÖÉçÖê•ÑáÅçë= É==
~êã~òÉå~ã=~=ÖÉçãÉíêá~=É=çë=~íêáÄìíçë=Ççë=Ç~Ççë=èìÉ=Éëí©ç=ÖÉçêÉÑÉêÉåÅá~ÇçëI=
áëíç= ¨I= äçÅ~äáò~Ççë= å~= ëìéÉêÑ∞ÅáÉ= íÉêêÉëíêÉ= É= êÉéêÉëÉåí~Ççë= åìã~= éêçàÉ´©ç=
Å~êíçÖê•ÑáÅ~K= kìã~= îáë©ç= ~Äê~åÖÉåíÉI= éçÇÉJëÉ= áåÇáÅ~ê= èìÉ= ìã= pfd= íÉã= çë=
ëÉÖìáåíÉë=ÅçãéçåÉåíÉëI=Åçãç=ãçëíê~Çç=å~=cáÖìê~=NJRW==
• fåíÉêÑ~ÅÉ=Åçã=ìëì•êáçX=
• båíê~Ç~=É=áåíÉÖê~´©ç=ÇÉ=Ç~ÇçëX=
• cìå´πÉë=ÇÉ=éêçÅÉëë~ãÉåíç=Öê•ÑáÅç=É=ÇÉ=áã~ÖÉåëX=
• sáëì~äáò~´©ç=É=éäçí~ÖÉãX=
• ^êã~òÉå~ãÉåíç= É= êÉÅìéÉê~´©ç= ÇÉ= Ç~Ççë= EçêÖ~åáò~Ççë= ëçÄ= ~==
Ñçêã~=ÇÉ=ìã=Ä~åÅç=ÇÉ=Ç~Ççë=ÖÉçÖê•ÑáÅçëFK==
= bëíÉë= ÅçãéçåÉåíÉë= ëÉ= êÉä~Åáçå~ã= ÇÉ= Ñçêã~= ÜáÉê•êèìáÅ~K= ^= áåíÉêÑ~ÅÉ=
ÜçãÉãJã•èìáå~= ÇÉÑáåÉ= Åçãç= ç= ëáëíÉã~= ¨= çéÉê~Çç= É= Åçåíêçä~ÇçK= kç= å∞îÉä=
áåíÉêãÉÇá•êáçI= ìã= pfd= ÇÉîÉ= íÉê= ãÉÅ~åáëãçë= ÇÉ= éêçÅÉëë~ãÉåíç= ÇÉ= Ç~Ççë=
Éëé~Åá~áë= EÉåíê~Ç~I= ÉÇá´©çI= ~å•äáëÉI= îáëì~äáò~´©ç= É= ë~∞Ç~FK= fåíÉêå~ãÉåíÉ= ~ç=
ëáëíÉã~I= ìã= Ä~åÅç= ÇÉ= Ç~Ççë= ÖÉçÖê•ÑáÅçë= ~êã~òÉå~= É= êÉÅìéÉê~= çë= Ç~Ççë=
Éëé~Åá~áëK= `~Ç~= ëáëíÉã~I= Éã= Ñìå´©ç= ÇÉ= ëÉìë= çÄàÉíáîçë= É= åÉÅÉëëáÇ~ÇÉëI=
áãéäÉãÉåí~= ÉëíÉë= ÅçãéçåÉåíÉë= ÇÉ= Ñçêã~=Çáëíáåí~I=ã~ë= íçÇçë=çë= ëìÄëáëíÉã~ë=
Åáí~Ççë=Éëí©ç=éêÉëÉåíÉë=åìã=pfdK=
=

Interface

Entrada e Integr. Consulta e Análise Visualização


Dados Espacial Plotagem

Gerência Dados
Espaciais

Banco de Dados
Geográfico

==

Figura 1-5 - Arquitetura de Sistemas de Informação Geográfica.


= ^=çêÖ~åáò~´©ç=ÇÉ=Ä~åÅçë=ÇÉ=Ç~Ççë=ÖÉçÖê•ÑáÅçë=ã~áë=ìíáäáò~Ç~=¨=ç=ãçÇÉäç=
ÖÉçJêÉä~Åáçå~ä= Eçì= ~êèìáíÉíìê~= Çì~äFI= èìÉ= ìíáäáò~= ìã= ëáëíÉã~= ÖÉêÉåÅá~Ççê= ÇÉ=
Ä~åÅçë= ÇÉ= Ç~Ççë= Epd_aF= êÉä~Åáçå~äI= Åçãç= ç= a_^pb= çì= ^``bppI= é~ê~=
~êã~òÉå~ê= Éã= ëì~ë= í~ÄÉä~ë= çë= ~íêáÄìíçë= Ççë= çÄàÉíçë= ÖÉçÖê•ÑáÅçëI= É= ~êèìáîçë=
Öê•ÑáÅçë=ëÉé~ê~Ççë=é~ê~=Öì~êÇ~ê=~ë=êÉéêÉëÉåí~´πÉë=ÖÉçã¨íêáÅ~ë=ÇÉëíÉë=çÄàÉíçëK==
= ^= éêáåÅáé~ä= î~åí~ÖÉã= Çç= ãçÇÉäç= ÖÉçJêÉä~Åáçå~ä= ¨= éçÇÉê= ìíáäáò~ê= çë=
pd_aë= êÉä~Åáçå~áë= ÇÉ= ãÉêÅ~ÇçK= aç= éçåíç= ÇÉ= îáëí~= Çç= ìëì•êáçI= Éëí~=
çêÖ~åáò~´©ç= éÉêãáíÉ= èìÉ= ~éäáÅ~´πÉë= ÅçåîÉåÅáçå~áëI= ÅçåÅÉÄáÇ~ë= É=
ÇÉëÉåîçäîáÇ~ë= ÇÉåíêç= Çç= ~ãÄáÉåíÉ= Çç= pd_a= êÉä~Åáçå~äI= Åçãé~êíáäÜÉã= çë=
~íêáÄìíçë=Ççë=çÄàÉíçë=ÖÉçÖê•ÑáÅçëK=kç=Éåí~åíçI=Åçãç=ç=pd_a=êÉä~Åáçå~ä=å©ç=
ÅçåÜÉÅÉ= ~= Éëíêìíìê~= Öê•ÑáÅ~= ÉñíÉêå~I= ÉñáëíÉ= ç= ë¨êáç= êáëÅç= ÇÉ= ëÉ= áåíêçÇìòáê=
áåÅçåëáëíÆåÅá~ë=åç=Ä~åÅç=ÇÉ=Ç~Ççë=ÖÉçÖê•ÑáÅçK=fã~ÖáåÉJëÉI=éçê=ÉñÉãéäçI=èìÉ=
ìã= ìëì•êáç= ÇÉ= ~éäáÅ~´©ç= ÉñÅäìëáî~ãÉåíÉ= ~äÑ~åìã¨êáÅ~= éçëë~= ÉñÅäìáê= ìã=
êÉÖáëíêç=~äÑ~åìã¨êáÅçI=ã~ë=èìÉ=ÅçãéπÉ=ìã=Åçåàìåíç=ÇÉ=~íêáÄìíçë=é~ê~=ìã~=
ÇÉíÉêãáå~Ç~= ÉåíáÇ~ÇÉ= ÖÉçÖê•ÑáÅ~K= bëí~= ÉåíáÇ~ÇÉ= ÖÉçÖê•ÑáÅ~= é~ëë~= ~= å©ç= íÉê=
ã~áë= ~íêáÄìíçëI= íçêå~åÇçJëÉ= áåÅçåëáëíÉåíÉK= ^ëëáãI= ç= ~ÅÉëëç= ~= ~íêáÄìíçë=
~äÑ~åìã¨êáÅçë= ÇÉ= Ç~Ççë= ÖÉçÖê•ÑáÅçë= ëµ= éçÇÉ= ëÉê= ÑÉáíç= ÇÉ= ã~åÉáê~= ÅêáíÉêáçë~I=
ÇÉåíêç=ÇÉ= ÅçåíêçäÉë= ê∞ÖáÇçë=èìÉ=éêÉÅáë~ã= ëÉê= áãéäÉãÉåí~Ççë= éÉä~= ~éäáÅ~´©çI=
ìã~= îÉò= èìÉ= ç= ãçÇÉäç= ÖÉçJêÉä~Åáçå~ä= å©ç= çÑÉêÉÅÉ= èì~äèìÉê= êÉÅìêëç= é~ê~= ~=
Ö~ê~åíá~=~ìíçã•íáÅ~=Ç~=áåíÉÖêáÇ~ÇÉ=Ççë=Ç~ÇçëK=
= ^ë= êÉéêÉëÉåí~´πÉë= ÖÉçã¨íêáÅ~ë= ìíáäáò~Ç~ë= áåÅäìÉã= ~ë= ëÉÖìáåíÉë=
~äíÉêå~íáî~ëW=
• mçåíçë= OaW= rã=éçåíçOa= ¨=ìã= é~ê= çêÇÉå~Çç= EñI=óF= ÇÉ= ÅççêÇÉå~Ç~ë=
Éëé~Åá~áëK= = rã= éçåíç= áåÇáÅ~= ìã= äçÅ~ä= ÇÉ= çÅçêêÆåÅá~= ÇÉ= ìã= ÉîÉåíçI=
Åçãç= åç= Å~ëç= Ç~= ãçêí~äáÇ~ÇÉ= éçê= Å~ìë~ë= ÉñíÉêå~ëI= ãçëíê~Ç~= å~=
cáÖìê~=NJOK==
• mçä∞ÖçåçëW=rã=éçä∞Öçåç=¨=ìã=Åçåàìåíç=ÇÉ=é~êÉë=çêÇÉå~Ççë=ôEñI=óFõ=ÇÉ=
ÅççêÇÉå~Ç~ë=Éëé~Åá~áëI=ÇÉ=í~ä=Ñçêã~=èìÉ=ç=∫äíáãç=éçåíç=ëÉà~=áÇÆåíáÅç=
~ç= éêáãÉáêçI= Ñçêã~åÇç= ìã~= êÉÖá©ç= ÑÉÅÜ~Ç~= Çç= éä~åçK= k~= ëáíì~´©ç=
ã~áë=ëáãéäÉëI=Å~Ç~=éçä∞Öçåç=ÇÉäáãáí~=ìã~=çÄàÉíç=áåÇáîáÇì~ä=EÅçãç=åç=
Å~ëç= Ççë= Çáëíêáíçë= ÇÉ= p©ç= m~ìäç= å~= cáÖìê~= NJQFX= åç= Å~ëç= ã~áë= ÖÉê~äI=
ìã~= êÉÖá©ç= áåÇáîáÇì~ä= ÇÉ= áåíÉêÉëëÉ= éçÇÉ= ëÉê= ÇÉäáãáí~Ç~= éçê= î•êáçë=
éçä∞ÖçåçëK=
• ^ãçëíê~ëW=ÅçåëáëíÉã=ÇÉ=é~êÉë=çêÇÉå~Ççë=ôEñI=óI=òõF=åçë=èì~áë=çë=é~êÉë=
EñI= óF= áåÇáÅ~ã= ~ë= ÅççêÇÉå~Ç~ë= ÖÉçÖê•ÑáÅ~ë= É= ò= áåÇáÅ~= ç= î~äçê= Ç~=
ÑÉå∑ãÉåç= ÉëíìÇ~Çç= é~ê~= Éëë~= äçÅ~äáò~´©çK= rëì~äãÉåíÉ= ~ë= ~ãçëíê~ë=
Éëí©ç=~ëëçÅá~Ç~ë=~ë=äÉî~åí~ãÉåíçë=ÇÉ=Å~ãéçI=Åçãç=åç=Å~ëç=ÇÉ=Ç~Ççë=
ÖÉçÑ∞ëáÅçëI= ÖÉçèì∞ãáÅçë= É= çÅÉ~åçÖê•ÑáÅçëK= l= ÅçåÅÉáíç= ÇÉ= ~ãçëíê~=
éçÇÉ= ëÉê= ÖÉåÉê~äáò~Çç= é~ê~= ç= Å~ëç= ÇÉ= ã∫äíáéä~ë= ãÉÇáÇ~ë= Éã= ìã~=
ãÉëã~=äçÅ~äáÇ~ÇÉK==
• dê~ÇÉ=êÉÖìä~êW=¨=ìã~=ã~íêáò=çåÇÉ=Å~Ç~=ÉäÉãÉåíç=Éëí•=~ëëçÅá~Çç=~=ìã=
î~äçê=åìã¨êáÅçK=bëí~=ã~íêáò=Éëí•=~ëëçÅá~Ç~=~=ìã~=êÉÖá©ç=Ç~=ëìéÉêÑ∞ÅáÉ=
íÉêêÉëíêÉI= ~= é~êíáê= ÇÉ= ÅççêÇÉå~Ç~= áåáÅá~äI= åçêã~äãÉåíÉ= êÉÑÉêáÇ~= ~ç=
Å~åíç= áåÑÉêáçê= ÉëèìÉêÇç= Ç~= ã~íêáòI= É= ÇÉ= Éëé~´~ãÉåíçë= êÉÖìä~êÉë= å~ë=
ÇáêÉ´πÉë=Üçêáòçåí~ä=É=îÉêíáÅ~äK==
• fã~ÖÉãW=¨=ìã~=ã~íêáò=çåÇÉ=Å~Ç~=ÉäÉãÉåíç=Éëí•=~ëëçÅá~Çç=~=ìã=î~äçê=
áåíÉáêç= Eìëì~äãÉåíÉ= å~= Ñ~áñ~= ÉåíêÉ= M= É= ORRFI= ìíáäáò~Ç~= é~ê~=
îáëì~äáò~´©çK=bëí~=ã~íêáò=¨=ìíáäáò~Ç~=é~ê~=~éêÉëÉåí~´©ç=Öê•ÑáÅ~=ÇÉ=ìã~=
Öê~ÇÉ=êÉÖìä~êK=lë=î~äçêÉë=åìã¨êáÅçë=Ç~=Öê~ÇÉ=ë©ç=ÉëÅ~äçå~Ççë=é~ê~=ç=
áåíÉêî~äç= ÇÉ= ~éêÉëÉåí~´©ç= Ç~= áã~ÖÉãX= çë= ã~áçêÉë= î~äçêÉë= ëÉê©ç=
ãçëíê~Ççë=Éã=å∞îÉáë=ÇÉ=Åáåò~=ã~áë=Åä~êçëI=É=çë=ãÉåçêÉë=Éã=å∞îÉáë=ÇÉ=
Åáåò~=ã~áë=ÉëÅìêçëK=k~=ã~áçê=é~êíÉ=Ççë=pfdI=çÑÉêÉÅÉã=~=éçëëáÄáäáÇ~ÇÉ=
ÇÉ= ~éêÉëÉåí~ê= ìã~= Öê~ÇÉ= êÉÖìä~ê= å~= Ñçêã~= ÇÉ= áã~ÖÉã= EÉã= éêÉíç= É=
Äê~åÅç=çì=Éã=ÅçêÉëFI=Åçã=ÅçåîÉêë©ç=~ìíçã•íáÅ~=çì=Åçåíêçä~Ç~=éÉäç=
ìëì•êáçëK= ^=cáÖìê~=NJP= EÇáêÉáí~F= ãçëíê~= ~= áã~ÖÉã=Ç~=ÇáëíêáÄìá´©ç=Ç~=
î~êá•îÉä=ë~íìê~´©ç=éçê=Ä~ëÉë=Éã=p~åí~=`~í~êáå~K=
= ^ë= ÖÉçãÉíêá~ë= ~ëëçÅá~Ç~ë= ~= éçåíçëI= ~ãçëíê~ë= É= éçä∞Öçåçë= Éëí©ç=
~éêÉëÉåí~Ç~ë= å~= cáÖìê~= NJS= É= ~= Öê~ÇÉ= êÉÖìä~ê= Éëí•= ãçëíê~Ç~= å~= cáÖìê~= NJUK=
rëì~äãÉåíÉI= ~= êÉÑÉêÆåÅá~= ÖÉçÖê•ÑáÅ~= Ççë= Ç~Ççë= Éëí•= Öì~êÇ~Ç~= å~ë=
ÅççêÇÉå~Ç~ë= Ç~ë= Éëíêìíìê~ë= ÇÉ= Ç~ÇçëI= èìÉ= Éëí•= ~ëëçÅá~Ç~= ~= ìã~= éêçàÉ´©ç=
Å~êíçÖê•ÑáÅ~= éä~å~êI= çì= ~= î~äçêÉë= ÇÉ= ä~íáíìÇÉ= EÅççêÇÉå~Ç~= vF= É= äçåÖáíìÇÉ=
EÅççêÇÉå~Ç~=uFK=

=
Figura 1-6 – Geometrias: Ponto2D, Amostra e Polígono
=

Figura 1-7 – Representação Geométrica de Grade Regular

= kç= ãçÇÉäç= ÖÉçJêÉä~Åáçå~äI= çë= ~íêáÄìíçë= ÇÉëÅêáíáîçë= ÇÉ= Å~Ç~= çÄàÉíç= ë©ç=
çêÖ~åáò~Ççë=å~=Ñçêã~=ÇÉ=ìã~=í~ÄÉä~I=çåÇÉ=~ë=äáåÜ~ë=ÅçêêÉëéçåÇÉã=~çë=Ç~Ççë=
É= ~ë= åçãÉë= Ç~ë= Åçäìå~ë= ÅçêêÉëéçåÇÉã= ~çë= åçãÉë=Ççë= ~íêáÄìíçëK= `~Ç~= äáåÜ~=
Ç~=í~ÄÉä~=ÅçêêÉëéçåÇÉ=~çë=î~äçêÉë=~ëëçÅá~Ççë=~=ìã=çÄàÉíç=ÖÉçÖê•ÑáÅçëX=~=Å~Ç~=
çÄàÉíç=ÖÉçÖê•ÑáÅç=Éëí•=~ëëçÅá~Çç=~=ìã=áÇÉåíáÑáÅ~Ççê=∫åáÅç=çì=êµíìäçI=~íê~î¨ë=
Çç= èì~ä= ¨= ÑÉáí~= ìã~= äáÖ~´©ç= äµÖáÅ~= ÉåíêÉ= ëÉìë= ~íêáÄìíçë= É= ëì~= êÉéêÉëÉåí~´©ç=
ÖÉçã¨íêáÅ~K==
= `çã= êÉä~´©ç= ~çë= íêÆë= íáéçë= Ä•ëáÅçë= ÇÉ= Ç~Ççë= ìíáäáò~Ççë= Éã= ~å•äáëÉ=
Éëé~Åá~äI= ~ë= •êÉ~ë= ë©ç= ~êã~òÉå~Ç~ë= åìã= pfd= Åçã= Éëíê~í¨Öá~= Çì~ä= å~= Ñçêã~=
~éêÉëÉåí~Ç~= å~= cáÖìê~= NJUK= `~Ç~= •êÉ~I= èìÉ= éçÇÉ= ëÉê= ìã= ëÉíçê= ÅÉåëáí•êáçI=
Çáëíêáíç=ÇÉ=ë~∫ÇÉ=çì=ãìåáÅ∞éáçI=¨=êÉéêÉëÉåí~Ç~=Öê~ÑáÅ~ãÉåíÉ=éçê=ìã=éçä∞Öçåç=
ÑÉÅÜ~Çç=É=ëÉìë=~íêáÄìíçë=ë©ç=Öì~êÇ~Ççë=åìã~=í~ÄÉä~=ÇÉ=ìã=pd_a=êÉä~Åáçå~äK=
^= cáÖìê~= NJU= ãçëíê~= ìã~= Ñ~òÉåÇ~= ÇÉ= ìã~= ÉãéêÉë~= ÑäçêÉëí~äI= ÇáîáÇáÇ~= Éã=
í~äÜπÉëI=é~ê~=ÉÑÉáíçë=ÇÉ=ÅìäíáîçK=`~Ç~=í~äÜ©ç=êÉÅÉÄÉ=ìã=áÇÉåíáÑáÅ~Ççê=èìÉ=Éëí•=
~ëëçÅá~Çç= ~ç= ãÉëãç= íÉãéç= ~ç= éçä∞Öçåç= èìÉ= ç= ÇÉäáãáí~= É= ¶= äáåÜ~= Ç~= í~ÄÉä~=
èìÉ=Åçåí¨ã=ëÉìë=~íêáÄìíçëK=kç=ÉñÉãéäçI=~=äáÖ~´©ç=¨=ÑÉáí~=~íê~î¨ë=Ççë=êÉÖáëíêçë=
åç=Å~ãéç=q^ieÍlK==l=ãÉëãç=íáéç=ÇÉ=êÉä~Åáçå~ãÉåíç=äµÖáÅç=¨=ëÉê=ÑÉáíç=Éã=
íçÇçë=çë=çìíêçë=Å~ëçëI=Åçãç=éçê=ÉñÉãéäçW=ãçê~ÇçêÉë=Éã=ìã=äçíÉI=äçíÉë=Éã=
ìã~= èì~Çê~I= èì~Çê~ë= Éã= Ä~áêêçI= Ä~áêêçë= Éã= ìã~= ÅáÇ~ÇÉX= ÜáÇê~åíÉë= ÇÉ=
ëÉÖìê~å´~=çì=íÉäÉÑçåÉë=é∫ÄäáÅçë=~ç=äçåÖç=ÇÉ=ìã~=~îÉåáÇ~X=éçëíçë=ÇÉ=ëÉêîá´ç=É=
êÉëí~ìê~åíÉë=~ç=äçåÖç=ÇÉ=ìã~=êçÇçîá~K=

Figura 1-8 - Estratégia dual para bancos de dados geográficos.


= kç= Å~ëç= ÇÉ= ÉîÉåíçëI= ÉëíÉë= í~ãĨã= éçÇÉã= ëÉê= ~ëëçÅá~Ççë= ~= ìã= pd_a=
êÉä~Åáçå~äI= éçê= ÉñÉãéäç= é~ê~= ~êã~òÉå~ê= ç= ÉåÇÉêÉ´ç= Ç~= çÅçêêÆåÅá~= ÇÉ= ìã=
ÜçãáÅ∞Çáç=É=~=ëì~=Å~ìë~K=^éäáÅ~JëÉ=ç=ãÉëãç=éêáåÅ∞éáç=é~ê~=ç=Å~ëç=ÇÉ=•êÉ~ëW=
Å~Ç~= ÉîÉåíç= Éëí•= ~ëëçÅá~Çç= ~= ìã= áÇÉåíáÑáÅ~ÇçêI= èìÉ= ¨= ~= äáÖ~´©ç= ÉåíêÉ= ç=
~êèìáîç=ÇÉ=ÅççêÇÉå~Ç~ë=ÖÉçÖê•ÑáÅ~ë=É=~=í~ÄÉä~=åç=Ä~åÅç=ÇÉ=Ç~ÇçëK==
= m~ê~=~ë=ëìéÉêÑ∞ÅáÉëI=~=ëáíì~´©ç=ã~áë=Åçãìã=¨=íê~í~ê=~éÉå~ë=Åçã=~êèìáîçë=
Öê•ÑáÅçëI= ëÉã= ç= ~êã~òÉå~ãÉåíç= Ççë= êÉëìäí~Ççë= Éã= ìã= pd_a= êÉä~Åáçå~äK=
kÉëíÉ=Å~ëçI=~=ëáíì~´©ç=ã~áë=ìëì~ä=¨=èìÉ=çë=Ç~Ççë=ÇÉ=Éåíê~Ç~=ë©ç=~êã~òÉå~Ççë=
Åçãç= ~ãçëíê~ëI= ~ÇáÅáçå~Ç~ë= ~= ìã= éçä∞Öçåç= Åçã= çë= äáãáíÉë= Ç~= êÉÖá©ç= ÇÉ=
ÉëíìÇçK=l=éêçÅÉëëç=ÇÉ=Éëíáã~´©ç=éêçÇìò=ìã~=Öê~ÇÉ=êÉÖìä~ê=èìÉ=ÇÉëÅêÉîÉ=ÇÉ=
Ñçêã~= ~éêçñáã~Ç~= ç= ÑÉå∑ãÉåç= å~= êÉÖá©ç= ÇÉ= ÉëíìÇçK= bëí~= Öê~ÇÉ= éçÇÉ= ëÉê=
íê~åëÑçêã~Ç~=åìã~=áã~ÖÉã=é~ê~=Ñáåë=ÇÉ=~éêÉëÉåí~´©ç=EÅçãç=å~==cáÖìê~=NJPFK=

1.4 CONCEITOS BÁSICOS EM ANÁLISE ESPACIAL

aÉéÉåÇÆåÅá~=bëé~Åá~ä=
= rã=ÅçåÅÉáíç=ÅÜ~îÉ=å~=ÅçãéêÉÉåë©ç=É=~å•äáëÉ=Ççë=ÑÉå∑ãÉåçë=Éëé~Åá~áë=¨=~=
ÇÉéÉåÇÆåÅá~= Éëé~Åá~äK= bëë~= åç´©ç= é~êíÉ= Çç= èìÉ= t~äÇç= qçÄäÉê= ÅÜ~ã~= ÇÉ=
éêáãÉáê~= äÉá= Ç~= ÖÉçÖê~Ñá~W= “íçÇ~ë= ~ë= Åçáë~ë= ë©ç= é~êÉÅáÇ~ëI= ã~ë= Åçáë~ë= ã~áë=
éêµñáã~ë=ëÉ=é~êÉÅÉã=ã~áë=èìÉ=Åçáë~ë=ã~áë=Çáëí~åíÉëÒK=lìI=Åçãç=~Ñáêã~=kçÉä=
`êÉëëáÉI= “~= ÇÉéÉåÇÆåÅá~= xÉëé~Åá~äz= Éëí•= éêÉëÉåíÉ= Éã= íçÇ~ë= ~ë= ÇáêÉ´πÉë= É= ÑáÅ~=
ã~áë=Ñê~Å~=¶=ãÉÇáÇ~=Éã=èìÉ=~ìãÉåí~=~=ÇáëéÉêë©ç=å~=äçÅ~äáò~´©ç=Ççë=Ç~ÇçëÒK=
= dÉåÉê~äáò~åÇçI=éçÇÉJëÉ=~Ñáêã~ê=èìÉ=~=ã~áçê=é~êíÉ=Ç~ë=çÅçêêÆåÅá~ëI=ëÉà~ã=
Éëí~ë= å~íìê~áë= çì= ëçÅá~áëI= ~éêÉëÉåí~ã= ÉåíêÉ= ëá= ìã~= êÉä~´©ç= èìÉ= ÇÉéÉåÇÉ= Ç~=
ÇáëíßåÅá~K=l=èìÉ=èìÉê=åçë=ÇáòÉê=ÉëíÉ=éêáåÅ∞éáç\=pÉ=ÉåÅçåíê~ãçë=éçäìá´©ç=åìã=
íêÉÅÜç= ÇÉ= ìã= ä~ÖçI= ¨= éêçî•îÉä= èìÉ= äçÅ~áë=éêµñáãçë= ~= Éëí~= ~ãçëíê~= í~ãĨã=
ÉëíÉà~ã= éçäì∞ÇçëK= lì= èìÉ= ëÉ= ~= éêÉëÉå´~= ÇÉ= ìã~= •êîçêÉ= ~Çìäí~= áåáÄÉ= ç=
ÇÉëÉåîçäîáãÉåíç= ÇÉ= çìíê~ëI= Éëí~= áåáÄá´©ç= Çáãáåìá= Åçã= ~= ÇáëíßåÅá~I= É= ~éµë=
ÇÉíÉêãáå~Çç=ê~áç=çìíê~ë=•êîçêÉë=Öê~åÇÉë=ëÉê©ç=ÉåÅçåíê~Ç~ëK==
^ìíçÅçêêÉä~´©ç=bëé~Åá~ä=
= ^= ÉñéêÉëë©ç= Åçãéìí~Åáçå~ä= Çç= ÅçåÅÉáíç= ÇÉ= ÇÉéÉåÇÆåÅá~= Éëé~Åá~ä= ¨= ~=
~ìíçÅçêêÉä~´©ç= Éëé~Åá~äK= bëíÉ= íÉêãç= Ñçá= ÇÉêáî~Çç= Çç= ÅçåÅÉáíç= Éëí~í∞ëíáÅç= ÇÉ=
ÅçêêÉä~´©çI= ìíáäáò~Çç= é~ê~= ãÉåëìê~ê= ç= êÉä~Åáçå~ãÉåíç= ÉåíêÉ= Çì~ë= î~êá•îÉáë=
~äÉ~íµêá~ëK= ^= éêÉéçëá´©ç= “~ìíçÒ= áåÇáÅ~= èìÉ= ~= ãÉÇáÇ~= ÇÉ= ÅçêêÉä~´©ç= ¨=
êÉ~äáò~Ç~= Åçã= ~= ãÉëã~= î~êá•îÉä= ~äÉ~íµêá~I= ãÉÇáÇ~= Éã= äçÅ~áë= Çáëíáåíçë= Çç=
Éëé~´çK= m~ê~= ãÉÇáê= ~= ~ìíçÅçêêÉä~´©ç= Éëé~Åá~äI= éçÇÉJëÉ= ìíáäáò~ê= ÇáÑÉêÉåíÉë=
áåÇáÅ~ÇçêÉëI= íçÇçë= Ä~ëÉ~Ççë= å~= ãÉëã~= áǨá~W= îÉêáÑáÅ~ê= Åçãç= î~êá~= ~=
ÇÉéÉåÇÆåÅá~= Éëé~Åá~äI= ~= é~êíáê= Ç~= Åçãé~ê~´©ç= ÉåíêÉ= çë= î~äçêÉë= ÇÉ= ìã~=
~ãçëíê~= É= ÇÉ= ëÉìë= îáòáåÜçëK= lë= áåÇáÅ~ÇçêÉë= ÇÉ= ~ìíçÅçêêÉä~´©ç= Éëé~Åá~ä= ë©ç=
Å~ëçë=é~êíáÅìä~êÉë=ÇÉ=ìã~=Éëí~í∞ëíáÅ~=ÇÉ=éêçÇìíçë=Åêìò~Ççë=Çç=íáéç=
n n
ENJNF=
Γ (d ) = ∑ ∑ wij (d )ξij =
i =1 j =1

= bëíÉ=∞åÇáÅÉ=ÉñéêÉëë~=~=êÉä~´©ç=ÉåíêÉ=ÇáÑÉêÉåíÉë=î~êá•îÉáë=~äÉ~íµêá~ë=Åçãç=
ìã= éêçÇìíç= ÇÉ= Çì~ë= ã~íêáòÉëK= a~Ç~= ìã~= ÇáëíßåÅá~= ÇI= ~= ã~íêáò= ïáà= ÑçêåÉÅÉ=
ìã~=ãÉÇáÇ~=ÇÉ=ÅçåíáÖΩáÇ~ÇÉ=Éëé~Åá~ä=ÉåíêÉ=~ë=î~êá•îÉáë=~äÉ~íµêá~ë=òá=É=òàI=éçê=
ÉñÉãéäçI=áåÑçêã~åÇç=ëÉ=ë©ç=ëÉé~ê~Ç~ë=ÇÉ=ÇáëíßåÅá~=ãÉåçê=èìÉ=ÇK=^=ã~íêáò=ξáà=
ÑçêåÉÅÉ=ìã~=ãÉÇáÇ~=ÇÉ=ÅçêêÉä~´©ç=ÉåíêÉ=Éëí~ë=î~êá•îÉáë=~äÉ~íµêá~ëI=èìÉ=éçÇÉ=
ëÉê=ç=éêçÇìíç=ÇÉëí~ë=î~êá•îÉáëI=Åçãç=åç=Å~ëç=Çç=∞åÇáÅÉ=ÇÉ=jçê~å=é~ê~=•êÉ~ëI=
ÇáëÅìíáÇç=åç=Å~é∞íìäç=R=Çç=äáîêçI=Åìà~=ÉñéêÉëë©ç=¨==
n n
=
∑∑ w ( z ij i − z )( z j − z )
I= i =1 j =1
= ENJOF=
n

∑( z
i =1
i − z )2

çåÇÉ= ïáà= ¨= N= ëÉ= ~ë= •êÉ~ë= ÖÉçÖê•ÑáÅ~ë= ~ëëçÅá~Ç~ë= ~= òá= É= òà= ëÉ= íçÅ~ãI= É= M= Å~ëç=
Åçåíê•êáçK=lìíêç=ÉñÉãéäç=ÇÉ=áåÇáÅ~Ççê=¨=ç=î~êáçÖê~ã~I=ÇáëÅìíáÇç=åç=Å~é∞íìäç=
PI=çåÇÉ=ëÉ=Åçãéìí~=ç=èì~Çê~Çç=Ç~=ÇáÑÉêÉå´~=Ççë=î~äçêÉëI=Åçãç=åç=Å~ëç=Ç~=
ÉñéêÉëë©ç=~=ëÉÖìáê=
1 N (d ) ENJPF=
γˆ (d ) = ∑
2 N ( d ) i=1
[ z ( xi ) − z ( xi + d )]2 =

çåÇÉ=kEÇF=¨=ç=å∫ãÉêç=ÇÉ=~ãçëíê~ë=ëÉé~ê~Ç~ë=éÉä~=ÇáëíßåÅá~=ÇK==
= bã= ~ãÄçë= çë= Å~ëçëI= çë= î~äçêÉë= çÄíáÇçë= ÇÉîÉã= ëÉê= Åçãé~ê~Ççë= Åçã= çë=
î~äçêÉë=èìÉ=ëÉêá~ã=éêçÇìòáÇçë=åç=Å~ëç=ÇÉ=å©ç=Ü~îÉê=~ëëçÅá~´©ç=Éëé~Åá~ä=ÉåíêÉ=
~ë= î~êá•îÉáëK= s~äçêÉë= ëáÖåáÑáÅ~íáîçë= ÇÉ= ∞åÇáÅÉë=ÇÉ= ~ìíçÅçêêÉä~´©ç= Éëé~Åá~ä= ë©ç=
ÉîáÇÆåÅá~ë= ÇÉ= ÇÉéÉåÇÆåÅá~= Éëé~Åá~ä= É= áåÇáÅ~ã= èìÉ= ç= éçëíìä~Çç= ÇÉ=
áåÇÉéÉåÇÆåÅá~= Ç~ë= ~ãçëíê~ëI= Ä~ëÉ= Ç~= ã~áçê= é~êíÉ= Ççë= éêçÅÉÇáãÉåíçë= ÇÉ=
áåÑÉêÆåÅá~=Éëí~í∞ëíáÅ~I=¨=áåî•äáÇç=É=èìÉ=çë=ãçÇÉäçë=áåÑÉêÉåÅá~áë=é~ê~=ÉëíÉë=Å~ëçë=
ÇÉîÉã=äÉî~ê=ÉñéäáÅáí~ãÉåíÉ=ç=Éëé~´ç=Éã=Åçåí~=Éã=ëì~ë=Ñçêãìä~´πÉëK==
fåÑÉêÆåÅá~=bëí~í∞ëíáÅ~=é~ê~=a~Ççë=bëé~Åá~áë=
= =rã~= ÅçåëÉèΩÆåÅá~= áãéçêí~åíÉ= Ç~= ÇÉéÉåÇÆåÅá~= Éëé~Åá~ä= ¨= èìÉ= ~ë=
áåÑÉêÆåÅá~ë=Éëí~í∞ëíáÅ~ë=åÉëíÉ=íáéç=ÇÉ=Ç~Ççë=å©ç=ëÉê©ç=í©ç=ÉÑáÅáÉåíÉë=èì~åíç=åç=
Å~ëç=ÇÉ=~ãçëíê~ë=áåÇÉéÉåÇÉåíÉë=Çç=ãÉëãç=í~ã~åÜçK=bã=çìíê~ë=é~ä~îê~ëI=~=
ÇÉéÉåÇÆåÅá~=Éëé~Åá~ä=äÉî~=~=ìã~=éÉêÇ~=ÇÉ=éçÇÉê=ÉñéäáÅ~íáîçK=aÉ=Ñçêã~=ÖÉê~äI=
áëíç= ëÉ= êÉÑäÉíÉ= Éã= î~êáßåÅá~ë= ã~áçêÉë= é~ê~= ~ë= Éëíáã~íáî~ëI= å∞îÉáë= ãÉåçêÉë= ÇÉ=
ëáÖåáÑáÅßåÅá~= Éã= íÉëíÉë= ÇÉ= ÜáéµíÉëÉë= É= ìã= ~àìëíÉ= éáçê= é~ê~= çë= ãçÇÉäçë=
Éëíáã~ÇçëI= Åçãé~ê~Ççë= ~= Ç~Ççë= ÇÉ= ãÉëã~= ÇáãÉåë©ç= èìÉ= ÉñáÄ~ã=
áåÇÉéÉåÇÆåÅá~K=
= k~=ã~áçê=é~êíÉ=Ççë=Å~ëçëI=~=éÉêëéÉÅíáî~=ã~áë=~éêçéêá~Ç~=¨=ÅçåëáÇÉê~ê=çë=
Ç~Ççë= Éëé~Åá~áë= å©ç= Åçãç= ìã= Åçåàìåíç= ÇÉ= ~ãçëíê~ë= áåÇÉéÉåÇÉåíÉëI= ã~ë=
Åçãç=ìã~=∫åáÅ~=êÉ~äáò~´©ç=ÇÉ=ìã=éêçÅÉëëç=ÉëíçÅ•ëíáÅçK=È=ÇáÑÉêÉå´~=Ç~=îáë©ç=
~ãçëíê~ä= íê~ÇáÅáçå~äI= Éã= èìÉ= Å~Ç~= çÄëÉêî~´©ç= íê~ò= ìã~= áåÑçêã~´©ç=
áåÇÉéÉåÇÉåíÉI=åç= Å~ëç=ÇÉ= ìã=éêçÅÉëëç= ÉëíçÅ•ëíáÅç= íçÇ~ë=~ë= çÄëÉêî~´πÉë= ë©ç=
ìíáäáò~Ç~ë=ÇÉ=Ñçêã~=Åçåàìåí~=é~ê~=ÇÉëÅêÉîÉê=ç=é~Çê©ç=Éëé~Åá~ä=Çç=ÑÉå∑ãÉåç=
ÉëíìÇ~ÇçK= ^= ÜáéµíÉëÉ= ÑÉáí~= ¨= èìÉI= é~ê~= = Å~Ç~= éçåíç= u = ÇÉ= ìã~= êÉÖá©ç= A =
Åçåí∞åì~= Éã= ℜ 2 I= çë= î~äçêÉë= áåÑÉêáÇçë= ÇÉ= ìã= ~íêáÄìíç= z = Ó= = ẑ (u ) = Ó= = ë©ç=
êÉ~äáò~´πÉë=ÇÉ=ìã=éêçÅÉëëç= {Z (u ), u ∈ A} K== kÉëíÉ= Å~ëçI= ¨= éêÉÅáëç= Ñ~òÉê=
ÜáéµíÉëÉë= ëçÄêÉ= ~= Éëí~ÄáäáÇ~ÇÉ= Çç= éêçÅÉëëç= ÉëíçÅ•ëíáÅçI= ~ç= ëìéçê= Ô= éçê=
ÉñÉãéäç= Ô= èìÉ= ç= ãÉëãç= ëÉà~= Éëí~Åáçå•êáç= ÉLçì= áëçíêµéáÅçI= ÅçåÅÉáíçë=
ÇáëÅìíáÇçë=~=ëÉÖìáêK=
bëí~Åáçå~êáÉÇ~ÇÉ=É=fëçíêçéá~=
= lë=éêáåÅáé~áë=ÅçåÅÉáíçë=Éëí~í∞ëíáÅçë=èìÉ=ÇÉÑáåÉã=~=Éëíêìíìê~=Éëé~Åá~ä=Ççë=
Ç~Ççë= êÉä~Åáçå~ãJëÉ= ~çë= ÉÑÉáíçë= ÇÉ= NŸ= É= OŸ= çêÇÉãK= bÑÉáíç= ÇÉ= NŸ= çêÇÉã= ¨= ç=
î~äçê=ÉëéÉê~ÇçI=áëíç=¨I=~=ã¨Çá~=Çç=éêçÅÉëëç=åç=Éëé~´çK=bÑÉáíç=ÇÉ=OŸ=çêÇÉã=¨=~=
Åçî~êáßåÅá~=ÉåíêÉ=~ë=•êÉ~ë=ëá=É=ëàK=rã=ÅçåÅÉáíç=áãéçêí~åíÉ=åÉëíÉ=íáéç=ÇÉ=ÉëíìÇç=
¨=ç=ÇÉ=Éëí~Åáçå~êáÉÇ~ÇÉK=l=éêçÅÉëëç=¨=ÅçåëáÇÉê~Çç=Éëí~Åáçå•êáç=ëÉ=çë=ÉÑÉáíçë=
ÇÉ=NŸ=É=OŸ=çêÇÉã=ë©ç=Åçåëí~åíÉëI=Éã=íçÇ~=~=êÉÖá©ç=ÉëíìÇ~Ç~I=çì=ëÉà~I=å©ç=Ü•=
íÉåÇÆåÅá~K= rã= éêçÅÉëëç= ¨= áëçíêµéáÅç= ëÉI= ~ä¨ã= ÇÉ= Éëí~Åáçå•êáçI= ~= Åçî~êáßåÅá~=
ÇÉéÉåÇÉ=ëçãÉåíÉ=Ç~=ÇáëíßåÅá~=ÉåíêÉ=çë=éçåíçë=É=å©ç=Ç~=ÇáêÉ´©ç=ÉåíêÉ=ÉäÉëK=
= rã=éêçÅÉëëç=ÉëíçÅ•ëíáÅç= Z =¨=Çáíç=ëÉê=Éëí~Åáçå•êáç=ÇÉ=ëÉÖìåÇ~=çêÇÉã=ëÉ=~=
ÉëéÉê~å´~= ÇÉ= Z (u ) = ¨= Åçåëí~åíÉ= Éã= íçÇ~= ~= êÉÖá©ç= ÇÉ= ÉëíìÇç= A I= çì= ëÉà~= å©ç=
ÇÉéÉåÇÉ=Ç~=ëì~=éçëá´©ç=
E{Z (u)} = m = ENJQF=

É= ~= Éëíêìíìê~= ÇÉ= Åçî~êáßåÅá~= Éëé~Åá~ä= ÇÉéÉåÇÉ= ìåáÅ~ãÉåíÉ= Çç= îÉíçê= êÉä~íáîç=


ÉåíêÉ=éçåíçë= h = u − u´ =
C (h) = E{Z (u ) ⋅ Z (u + h)} − E{Z (u )}E{Z (u + h)} = ENJRF=

= a~Çç= ìã= éêçÅÉëëç= Éëé~Åá~ä= ÉëéÉÅ∞ÑáÅçI= ~= ÜáéµíÉëÉ= Ç~= Éëí~Åáçå~êáÉÇ~ÇÉ=


éçÇÉ= ëÉê= ÅçêêçÄçê~Ç~= ~= é~êíáê= ÇÉ= éêçÅÉÇáãÉåíçë= ÇÉ= ~å•äáëÉ= Éñéäçê~íµêá~= É=
Éëí~í∞ëíáÅ~ë= ÇÉëÅêáíáî~ëI= Åìàç= Å•äÅìäç= ÇÉîÉ= ÅçåëáÇÉê~ê= ÉñéäáÅáí~ãÉåíÉ= ~=
äçÅ~äáò~´©ç=Éëé~Åá~äK=k~=Åçî~êáßåÅá~=Éëé~Åá~ä= C h I=ç=îÉíçê= h =ÅçãéêÉÉåÇÉ=~=
ÇáëíßåÅá~ h É=~=ÇáêÉ´©çK=nì~åÇç=~=Éëíêìíìê~=ÇÉ=Åçî~êáßåÅá~I=~ä¨ã=ÇÉ=î~êá~ê=
Åçã=~=ÇáëíßåÅá~I=î~êá~=ëáãìäí~åÉ~ãÉåíÉ=Éã=Ñìå´©ç=Ç~=ÇáêÉ´©çI=Éä~=¨=Çáí~=ëÉê=
~åáëçíêµéáÅ~K=kç=Å~ëç=Éã=èìÉ=~=ÇÉéÉåÇÆåÅá~=Éëé~Åá~ä=¨=~=ãÉëã~=Éã=íçÇ~ë=~ë=
ÇáêÉ´πÉëI=ÇáòJëÉ= èìÉ= ç= ÑÉå∑ãÉåç= ¨= áëçíêµéáÅçK= ^= ãçÇÉä~ÖÉã=Ç~= Éëíêìíìê~=ÇÉ=
Åçî~êáßåÅá~=Éëé~Åá~ä=¨=ãÉäÜçê=ÇÉí~äÜ~Ç~=åçë=Å~é∞íìäçë=èìÉ=ëÉ=ëÉÖìÉãK=mçê=çê~=
¨= áãéçêí~åíÉ= ë~äáÉåí~ê= ~ë= Å~ê~ÅíÉê∞ëíáÅ~ë= Ä•ëáÅ~ë= ÇÉ= ìã~= Éëíêìíìê~= ÇÉ=
Åçî~êáßåÅá~=Éëé~Åá~ä=ÇÉ=Ñçêã~=~=íçêå~ê=ÅçãéêÉÉåë∞îÉä=çë=ÅçåÅÉáíçë=ìíáäáò~Ççë=
åç=äáîêçK=
1.5 O PROCESSO DA ANÁLISE ESPACIAL

= ^= ~å•äáëÉ= Éëé~Åá~ä= ¨= Åçãéçëí~= éçê= ìã= Åçåàìåíç= ÇÉ= éêçÅÉÇáãÉåíçë=


ÉåÅ~ÇÉ~Ççë= Åìà~= Ñáå~äáÇ~ÇÉ= ¨= ~= ÉëÅçäÜ~= ÇÉ= ìã= ãçÇÉäç= áåÑÉêÉåÅá~ä= èìÉ=
ÅçåëáÇÉêÉ= ÉñéäáÅáí~ãÉåíÉ= ç= êÉä~Åáçå~ãÉåíç= Éëé~Åá~ä= éêÉëÉåíÉ= åç= ÑÉå∑ãÉåçK=
lë= éêçÅÉÇáãÉåíçë= áåáÅá~áë= Ç~= ~å•äáëÉ= áåÅäìÉã= ç= Åçåàìåíç= ÇÉ= ã¨íçÇçë=
ÖÉå¨êáÅçë=ÇÉ=~å•äáëÉ=Éñéäçê~íµêá~=É=~=îáëì~äáò~´©ç=Ççë=Ç~ÇçëI=Éã=ÖÉê~ä=~íê~î¨ë=
ÇÉ= ã~é~ëK= bëë~ë= í¨ÅåáÅ~ë=éÉêãáíÉã= ÇÉëÅêÉîÉê= ~=ÇáëíêáÄìá´©ç=Ç~ë= î~êá•îÉáë= ÇÉ=
ÉëíìÇçI=áÇÉåíáÑáÅ~ê=çÄëÉêî~´πÉë= ~í∞éáÅ~ë= EçìíäáÉêëF=å©ç= ëµ= Éã= êÉä~´©ç= ~ç= íáéç=
ÇÉ= ÇáëíêáÄìá´©çI= ã~ë= í~ãĨã= Éã= êÉä~´©ç= ~çë= îáòáåÜçëI= É= ÄìëÅ~ê=~= ÉñáëíÆåÅá~=
ÇÉ=é~ÇêπÉë=å~=ÇáëíêáÄìá´©ç=Éëé~Åá~äK=^íê~î¨ë=ÇÉëëÉë=éêçÅÉÇáãÉåíçë=¨=éçëë∞îÉä=
Éëí~ÄÉäÉÅÉê= ÜáéµíÉëÉë= ëçÄêÉ= ~ë= çÄëÉêî~´πÉëI= ÇÉ= Ñçêã~= ~= ëÉäÉÅáçå~ê= ç= ãçÇÉäç=
áåÑÉêÉåÅá~ä=ãÉäÜçê=ëìéçêí~Çç=éÉäçë=Ç~ÇçëK===
= lë= ãçÇÉäçë= áåÑÉêÉåÅá~áë= Éëé~Åá~áë= ë©ç= ìëì~äãÉåíÉ= ~éêÉëÉåí~Ççë= Éã= íêÆë=
Öê~åÇÉë=ÖêìéçëW=î~êá~´©ç=Åçåí∞åì~I=î~êá~´©ç=ÇáëÅêÉí~=É=çë=éêçÅÉëëçë=éçåíì~áëK=
^=êÉëçäì´©ç=ÇÉ=ìã=éêçÄäÉã~=Éëé~Åá~ä=éçÇÉ=ÉåîçäîÉê=~=ìíáäáò~´©ç=ÇÉ=ìã=ÇÉäÉë=
çì= ~= áåíÉê~´©ç= ÇÉ= ~äÖìåë= çì= ãÉëãç= ÇÉ= íçÇçëK= l=ÉñÉãéäç= ~Ä~áñç= áäìëíê~= ~ë=
ÇáÑÉêÉå´~ë=ÉåíêÉ=ÉëëÉë=ãçÇÉäçëI=Åçãç=éçÇÉã=ëÉê=ìíáäáò~Ççë=É=Åçãç=áåíÉê~ÖÉã=
ÇÉåíêç= ÇÉ= ìã= ãÉëãç= éêçÅÉëëç= Éã= èìÉ= èìÉëíπÉëI= Ä~ëÉ~Ç~ë= Éã= Ñ~íçë= êÉ~áëI=
ÇÉîÉã=ëÉê=êÉëéçåÇáÇ~ëK=
= ^= iÉáëÜã~åáçëÉ= îáëÅÉê~ä= ¨= ìã~= ÇçÉå´~= éêáåÅáé~äãÉåíÉ= ÇÉ= ~åáã~áëI= ã~ë=
èìÉ=í~ãĨã=~íáåÖÉ=ç=ÜçãÉãK=l=éêáåÅáé~ä=êÉëÉêî~íµêáç=Ççã¨ëíáÅç=Ç~=ÇçÉå´~=
ìêÄ~å~= ë©ç= çë= Å©ÉëI= å©ç= Ü~îÉåÇç= íê~í~ãÉåíç= é~ê~= ÉëëÉëK= ^= ÇçÉå´~= ¨=
íê~åëãáíáÇ~=éçê=ãçëèìáíçëI=èìÉ=ëÉ=êÉéêçÇìòÉã=åç=ëçäç=É=Éã=ã~í¨êá~=çêÖßåáÅ~=
Éã=ÇÉÅçãéçëá´©çI=Åçãç=é¨ë=ÇÉ=Ä~å~åÉáê~=É=ÑçäÜ~ë=Å~∞Ç~ëK=kçë=∫äíáãçë=~åçë=
Ñçê~ã=ÇÉíÉÅí~Ççë=~äÖìåë=ëìêíçë=ÉéáÇÆãáÅçë=Éã=ÅáÇ~ÇÉë=Äê~ëáäÉáê~ë=Åçãç=_Éäç=
eçêáòçåíÉI=^ê~´~íìÄ~I=`ìá~Ä•I=qÉêÉëáå~=É=k~í~äK=l=ÅçåíêçäÉ=Ç~=ÇçÉå´~=Éëí•=
ÑìåÇ~ãÉåí~Çç=åç=ÅçãÄ~íÉ=~ç=áåëÉíç=É=å~=Éäáãáå~´©ç=ÇÉ=Å©Éë=ÇçÉåíÉë=Ç~=•êÉ~=
ÇÉ= ÑçÅçI= ÇÉÑáåáÇç= Éã= OMM= ãÉíêçë= Éã= íçêåç= Çç= Å~ëç= Üìã~åç= çì= Å~åáåçK=
båíêÉí~åíçI=~=áåíÉåëáî~=~éäáÅ~´©ç=Ç~ë=ãÉÇáÇ~ë=éêÉÅçåáò~Ç~ë=å©ç=îÉã=çÄíÉåÇç=
ç=êÉëìäí~Çç=ÇÉëÉà~ÇçI=ã~åíÉåÇçJëÉ=~=ÉåÇÉãá~K=mçê=çìíêç=ä~ÇçI=~=éçéìä~´©çI=
ÉãÄçê~= ÅççéÉêÉ= åç= éêáãÉáêç= ãçãÉåíçI= èì~åÇç= Ç~= ÇÉëÅçÄÉêí~= ÇÉ= Å~ëçë=
Üìã~åçë= Öê~îÉëI= ÇÉéçáë= ÇÉ= ãÉëÉë= ÇÉ= äÉî~åí~ãÉåíçë= ÅçãÉ´~= ÇÉ= å©ç= ~ÅÉáí~ê=
ã~áë=~=Éäáãáå~´©ç=Ççë=Å©ÉëK=l=éêçÄäÉã~=¨=Öê~îÉI=É=~áåÇ~=ëÉã=ëçäì´©çI=ëÉåÇç=
åÉÅÉëë•êáç=~î~äá~ê=~=ÉÑáÅ•Åá~=Ç~ë=Éëíê~í¨Öá~ë=ÇÉ=ÅçåíêçäÉ=åç=ÅçåíÉñíç=ìêÄ~åçK=
ríáäáò~åÇç= ~ë= ÑÉêê~ãÉåí~ë= ÇÉ= ~å•äáëÉ= Éëé~Åá~äI= ~äÖìã~ë= èìÉëíπÉë= éçÇÉã=
~Åìãìä~ê=ëìÄë∞Çáçë=é~ê~=êÉëéçåÇÉê=~=ÉëëÉ=éêçÄäÉã~K=`çãç=éçê=ÉñÉãéäçW=
nì~ä=ç=ê~áç=ÇÉ=ÇáëéÉêë©ç=Çç=ãçëèìáíç=Éã=íçêåç=ÇÉ=ëÉì=Ü~Äáí~í\==
= k~= ãçÇÉä~ÖÉã= Ç~= ÇáëéÉêë©ç= Çç= îÉíçê= Ç~= iÉáëÜã~åáçëÉI= ÉëëÉåÅá~ä= é~ê~=
Éëíáã~ê=ç=ê~áç=ÇÉ=ÇáëéÉêë©ç=Çç=ãçëèìáíç=èìÉ=ÇÉÑáåÉ=~=•êÉ~=ÇÉ=ÄçêêáÑ~´©ç=~ç=
êÉÇçê=ÇÉ=Å~ëçë=Ç~=ÇçÉå´~I=Ççáë=ãçÇÉäçë=éçÇÉã=ëÉê=ìíáäáò~ÇçëW=
• lë= ÇÉ= î~êá~´©ç= Åçåí∞åì~I= çåÇÉ= ç= çÄàÉíáîç= ¨= ÖÉê~ê= ëìéÉêÑ∞ÅáÉë= Åçåí∞åì~ë=
ÇÉíÉêãáå~åÇç=~ë=•êÉ~ë=ÇÉ=ã~áçê=êáëÅç=~=é~êíáê=ÇÉ=ìã~=~ãçëíê~=ÇÉ=äçÅ~áë=
çåÇÉ=ëÉ=ÑÉò=~=ÅçäÉí~=Ççë=ãçëèìáíçë=E~ãçëíê~=ÇÉ=éçåíçë=ÇÉëÅçåí∞åìçëFK=
• lë= éêçÅÉëëçë= éçåíì~áëI= çåÇÉ= ç= çÄàÉíáîç= ¨= ãçÇÉä~ê= ~= éêçÄ~ÄáäáÇ~ÇÉ= ÇÉ=
Å~éíìê~= ÇÉ= ãçëèìáíçëK= kÉëëÉ= Å~ëçI= ~= î~êá•îÉä= ~äÉ~íµêá~= å©ç= ¨= ç= î~äçê= ÇÉ=
ìã= ~íêáÄìíç= EéêÉëÉå´~= çì= ~ìëÆåÅá~= ÇÉ= ãçëèìáíçF= ã~ë= ç= äçÅ~ä= çåÇÉ= Ñçá=
Å~éíìê~ÇçK=
bã=•êÉ~=ìêÄ~å~I=èì~ä=¨=ç=~ãÄáÉåíÉ=éêÉÑÉêÉåÅá~ä=ÇÉ=êÉéêçÇì´©ç=Çç=ãçëèìáíç\==
= m~ê~= Éëíáã~ê= çë= äçÅ~áë= Åêá~Ççìêçë=ÇÉ= ãçëèìáíçë= = ¨= åÉÅÉëë•êáç= áÇÉåíáÑáÅ~ê=
åìã~= ÇÉíÉêãáå~Ç~= êÉÖá©ç= ~ë= •êÉ~ë= ÇÉ= ÅçåÅÉåíê~´©ç= ÇÉ= ~äÖìåë= ~íêáÄìíçë==
~ãÄáÉåí~áë=èìÉ=éêçéáÅá~ã=ç=~é~êÉÅáãÉåíç=Çç=ãçëèìáíç=Åçãç=éçê=ÉñÉãéäçë=
êÉä~íáîçë= ~= ã~í¨êá~= çêÖßåáÅ~= É= ÅçåÇá´πÉë= Ççë= ëçäçë= ëçäçK= kÉëëÉ= Å~ëç= çë=
ãçÇÉäçë=ÇÉ=î~êá~´©ç=Åçåíáåì~=éçÇÉêá~ã=ëÉê=ìíáäáò~Ççë=é~ê~=áåÑÉêáê=ëìéÉêÑ∞ÅáÉë=
Åçã=çë=î~äçêÉë=ÇÉëëÉë=~íêáÄìíçëK==
bñáëíÉ= êÉä~´©ç= ÉåíêÉ= éêÉî~äÆåÅá~= Å~åáå~= É= ÅçåÇá´πÉë= ëçÅáçÉÅçå∑ãáÅ~ë= Ç~=
éçéìä~´©ç\==
= ^éÉå~ë= çë= ãçëèìáíçëI= áëçä~Ç~ãÉåíÉI= å©ç= éÉêéÉíì~ã= ~= ÉéáÇÉãá~K= °=
åÉÅÉëë•êáç=èìÉ= Ü~à~= ~åáã~áë=ÇçÉåíÉë= Ççë= èì~áë= ÉäÉë= ëÉ= ~äáãÉåíÉã= ÅçãçI=éçê=
ÉñÉãéäçI=çë=Å©ÉëK=båíêÉí~åíçI=¨=ë~ÄáÇç=èìÉ=í~åíç=~=éêÉëÉå´~=É=êÉëáëíÆåÅá~=Ççë=
Å©Éë=¶=ÇçÉå´~=ÇÉéÉåÇÉ=Çç=Éëí~Çç=åìíêáÅáçå~ä=É=ÅçåëÉèìÉåíÉãÉåíÉ=Ç~=ëáíì~´©ç=
ëçÅáçÉÅçå∑ãáÅ~I=Åçãç=~ÅÉáí~´©ç=Ç~=Éäáãáå~´©ç=Ççë=~åáã~áë=ÇçÉåíÉë=í~ãĨã=
¨=êÉä~Åáçå~Ç~=¶=êÉåÇ~K=^ëëáã=¨=åÉÅÉëë•êáç=ÉëíìÇ~ê=Åçåàìåí~ãÉåíÉ=~=áåÅáÇÆåÅá~=
Ç~= ÇçÉå´~= Éã= Å©ÉëI= ç= éÉêÑáä= ëçÅáçÉÅçå∑ãáÅç= Ç~= éçéìä~´©ç= É= í~ãĨã= ~=
éêÉî~äÆåÅá~= ÇÉ= Å~ëçë= Üìã~åçëK= l= íáéç= ÇÉ= ~å•äáëÉ= åÉëíÉ= Å~ëç= ÉåîçäîÉ=
Åçåí~ÖÉåë= éçê= •êÉ~ëI= éçê= ÉñÉãéäçI= áåÇáÅ~ÇçêÉë= ëçÅáçÉÅçå∑ãáÅçëK= fëíç= ¨I= ~=
áåÑçêã~´©ç= Çáëéçå∞îÉä= ¨= ÅçãéäÉí~= ëçÄêÉ= ~= êÉÖá©çI= Éã= Ç~Ççë= ~Öêìé~Ççë= éçê=
•êÉ~K= ^ëëáã= ç= èìÉ= ëÉ= çÄàÉíáî~= ¨= ÉëíìÇ~ê= ~= êÉä~´©ç= ÉåíêÉ= çë= ÇáÑÉêÉåíÉë=
áåÇáÅ~ÇçêÉë= ÅçåëáÇÉê~åÇç= ëì~= Éëíêìíìê~= Éëé~Åá~äK= kÉëëÉë= Å~ëçëI= ìíáäáò~JëÉ= ç=
ãçÇÉäç=ÇÉ=î~êá~´©ç=ÇáëÅêÉí~K==
= rã~= îÉò= ÉñÉãéäáÑáÅ~Çç= ~= ìíáäáò~´©ç= Ççë= ãçÇÉäçë= áåÑÉêÉåÅá~áë= Ä•ëáÅçë= É=
Åçãç= ÉëëÉë= éêçÅÉÇáãÉåíçë= éçÇÉã= çì= å©ç= áåíÉê~Öáê= å~= êÉëçäì´©ç= ÇÉ=
ÇÉíÉêãáå~Ç~= èìÉëí©çI= çë= ÅçåÅÉáíçë= Ä•ëáÅçë= ÇÉ= Å~Ç~= ìã= ÇÉäÉë= ëÉê©ç=
~éêÉëÉåí~Ççë=~=ëÉÖìáêK=
jçÇÉäçë=fåÑÉêÉåÅá~áë=
= jçíáî~Ççë= éçê= ÇáÑÉêÉåíÉë= •êÉ~ë= ÇÉ= ~éäáÅ~´πÉëI= çë= ãçÇÉäçë= áåÑÉêÉåÅá~áë=
Ñçê~ã= ÇÉëÉåîçäîáÇçë= ëÉé~ê~Ç~ãÉåíÉ= é~ê~= Å~Ç~= ìã~= Ç~ë= ëáíì~´πÉë= ~Åáã~=
ÇÉëÅêáí~ëK= ^= ìåáÑáÅ~´©ç= ÇÉëíÉ= Å~ãéç= ~áåÇ~= å©ç= Éëí•= íçí~äãÉåíÉ= ÇÉÑáåáÇ~I= É=
ÑêÉèΩÉåíÉãÉåíÉ=¨=éçëë∞îÉä=~éäáÅ~ê=ã~áë=ÇÉ=ìã=íáéç=ÇÉ=ãçÇÉä~ÖÉã=~ç=ãÉëãç=
Åçåàìåíç=ÇÉ=Ç~ÇçëI=Åçãç=ëÉ=éçÇÉ=îÉê=åç=ÉñÉãéäç=~Åáã~K=nì~áë=ëÉêá~ã=Éåí©ç=
~ë= î~åí~ÖÉåë= ÇÉ= ìã~= Ñçêã~= ëçÄêÉ= ~= çìíê~\= `ä~êç= èìÉ= ~äÖìã~ë= îÉòÉë= ç=
ÑÉå∑ãÉåç= Éã= ÉëíìÇç= ~éêÉëÉåí~= î~êá~´©ç= Éëé~Åá~ä=ÇáëÅêÉí~I= áëíç= ¨= ìã= éçåíçë=
áëçä~Ççë=åç=Éëé~´çI==ã~ë=ÑêÉèΩÉåíÉãÉåíÉ=çë=ãçÇÉäçë=ÇáëÅêÉíçë=ë©ç=ìë~Ççë=éçê=
ê~òπÉë= ÇÉ= çêÇÉã= éê•íáÅ~I= í~áë= Åçãç= ~= ÇáëéçåáÄáäáÇ~ÇÉ= Ççë= Ç~Ççë=
ÉñÅäìëáî~ãÉåíÉ=éçê=•êÉ~ëK=rã~=Ç~ë=î~åí~ÖÉåë=Ççë=ãçÇÉäçë=Åçåí∞åìçë=¨=èìÉ=~=
áåÑÉêÆåÅá~= å©ç= ëÉ= äáãáí~= ~= •êÉ~ë= ~êÄáíê~êá~ãÉåíÉ= ÇÉÑáåáÇ~ëK= mçê= çìíêç= ä~ÇçI=
ãçÇÉäçë= ÇáëÅêÉíçë= éÉêãáíÉãI= ã~áë= Ñ~ÅáäãÉåíÉ= Éëíáã~ê= é~êßãÉíêçë= ÇÉ=
~ëëçÅá~´©ç=ÉåíêÉ=î~êá•îÉáëK=^=ÉëÅçäÜ~=Ñáå~ä=ëÉê•=Çç=éÉëèìáë~ÇçêI=èìÉ=ë~ÄÉ=å©ç=
Éñáëíáê=ç=“ãçÇÉäç=ÅÉêíçÒI=ã~ë=èìÉ=ÄìëÅ~=ìã=ãçÇÉäç=èìÉ=ãÉäÜçê=ëÉ=~àìëíÉ=~çë=
Ç~Ççë= É= íÉåÜ~= ã~áçê= éçíÉåÅá~ä= ÇÉ= ÅçåíêáÄìáê= é~ê~= ~= ÅçãéêÉÉåë©ç= Çç=
ÑÉå∑ãÉåç=Éã=ÉëíìÇçK=
mêçÅÉëëç=éçåíì~ä==
= mêçÅÉëëçë= éçåíì~áë= ë©ç= ÇÉÑáåáÇçë= Åçãç= ìã= Åçåàìåíç= ÇÉ= éçåíçë=
áêêÉÖìä~êãÉåíÉ= ÇáëíêáÄì∞Ççë= Éã= ìã= íÉêêÉåçI= Åìà~= äçÅ~äáò~´©ç= Ñçá= ÖÉê~Ç~= éçê=
ìã= ãÉÅ~åáëãç= ÉëíçÅ•ëíáÅçK= ^= äçÅ~äáò~´©ç= Ççë= éçåíçë= ¨= ç= çÄàÉíç= ÇÉ= ÉëíìÇçI=
èìÉ=íÉã=éçê=çÄàÉíáîç=ÅçãéêÉÉåÇÉê=ëÉì=ãÉÅ~åáëãç=ÖÉê~ÇçêK=`çåëáÇÉê~JëÉ=ìã=
Åçåàìåíç= ÇÉ= éçåíçë= (u1 , u 2 ,........) åìã~= ÇÉíÉêãáå~Ç~= êÉÖá©ç= A = çåÇÉ=
çÅçêêÉê~ã= ÉîÉåíçëK= mçê= ÉñÉãéäçI= ëÉåÇç= ç= ÑÉå∑ãÉåç= Éã= ÉëíìÇç= ÜçãáÅ∞Çáçë=
çÅçêêáÇçë=Éã=ìã~=ÇÉíÉêãáå~Ç~=êÉÖá©çI=ÇÉëÉà~JëÉ=îÉêáÑáÅ~ê=ëÉ=ÉñáëíÉ=ìã=é~Çê©ç=
ÖÉçÖê•ÑáÅç=é~ê~=ÉëëÉ=íáéç=ÇÉ=ÅêáãÉI=çì=ëÉà~I=ÉåÅçåíê~ê=ëìÄJêÉÖáπÉë=Éã= A =Åçã=
ã~áçê=éêçÄ~ÄáäáÇ~ÇÉ=ÇÉ=çÅçêêÆåÅá~K===
= l= éêçÅÉëëç= éçåíì~ä= ¨= ãçÇÉä~Çç= ÅçåëáÇÉê~åÇç= ëìÄêÉÖáπÉë= S = Éã= A =
[ ( )]
~íê~î¨ë= ÇÉ= ëì~= ÉëéÉê~å´~= E [N (S )] = É= ~= Åçî~êáßåÅá~= C N (S i ), N S j I= çåÇÉ=
N (S ) =ÇÉåçí~=ç=å∫ãÉêç=ÇÉ=ÉîÉåíçë=Éã=pK=pÉåÇç=ç=çÄàÉíáîç=Ç~=~å•äáëÉ=Éëíáã~ê=
~ë= äçÅ~äáò~´πÉë= éêçî•îÉáë= ÇÉ= çÅçêêÆåÅá~= ÇÉ= ÇÉíÉêãáå~Ççë= ÉîÉåíçëI= Éëë~ë=
Éëí~í∞ëíáÅ~ë=ÇÉîÉã=ëÉê=áåÑÉêáÇ~ë=ÅçåëáÇÉê~åÇç=ç=î~äçê=äáãáíÉ=Ç~=èì~åíáÇ~ÇÉ=ÇÉ=
ÉîÉåíçë= éçê= •êÉ~K= bëíÉ= î~äçê= äáãáíÉ= ÅçêêÉëéçåÇÉ= ¶= ÉëéÉê~å´~= ÇÉ= N (S ) = é~ê~=
ìã~= éÉèìÉå~= êÉÖá©ç= du Éã= íçêåç= Çç= éçåíç= u I= èì~åÇç= Éëë~= íÉåÇÉ= ~= òÉêçK=
bëë~= ÉëéÉê~å´~= ¨=ÇÉåçãáå~Ç~= áåíÉåëáÇ~ÇÉ= EéêçéêáÉÇ~ÇÉ= ÇÉ=éêáãÉáê~= çêÇÉãFI=
ëÉåÇç=ÇÉÑáåáÇ~=ÅçãçX==
 E [N (du )]
λ (u ) = lim   I= = = = = ENJSF=
 du 
du →0
= mêçéêáÉÇ~ÇÉë= ÇÉ= ëÉÖìåÇ~= çêÇÉã= éçÇÉã= ëÉê= ÇÉÑáåáÇ~ë= Ç~= ãÉëã~= Ñçêã~I=
( )
ÅçåëáÇÉê~åÇç=~=áåíÉåëáÇ~ÇÉ=Åçåàìåí~ λ ui , u j =ÉåíêÉ=Çì~ë=êÉÖáπÉë=áåÑáåáíÉëáã~áë=
du =É= du j =èìÉ=Åçåí¨ã=çë=éçåíçë= u i =É= u j K==

λ (d (ui ), d (u j )) =
[ ( )]
 C N (dui ), N du j
lim
du i , du j → 0 
  == = ENJTF=
 dui , du j 

= nì~åÇç= ç= = éêçÅÉëëç= ¨= Éëí~Åáçå•êáçI= λ (u ) = ¨= ìã~= Åçåëí~åíÉ= λ (u ) = λ X= ëÉ=


( )
í~ãĨã=¨=áëçíêµéáÅçI= λ u i , u j =ëÉ=êÉÇìò=¶= λ( h ) I=ëÉåÇç= h =~=ÇáëíßåÅá~=ÉåíêÉ=çë=
Ççáë= éçåíçëK= nì~åÇç= ç= éêçÅÉëëç= ¨= å©ç= Éëí~Åáçå•êáçI= çì= ëÉà~I= ~= áåíÉåëáÇ~ÇÉ=
ã¨Çá~=î~êá~=å~=êÉÖá©ç=^I=~=ãçÇÉä~ÖÉã=Ç~=Éëíêìíìê~=ÇÉ=ÇÉéÉåÇÆåÅá~= λ ui , u j = ( )
ÇÉîÉ=áåÅçêéçê~ê=~=î~êá~´©ç=ÇÉ= λ(u ) K=lë=éêçÅÉëëçë=éçåíì~áë=ë©ç=~ÄçêÇ~Ççë=åç=
Å~é∞íìäç=OK=
s~êá~´©ç=Åçåí∞åì~=
= lë= ãçÇÉäçë= áåÑÉêÉåÅá~áë= ÇÉ= î~êá~´©ç= Åçåí∞åì~= ÅçåëáÇÉê~ã= ìã= éêçÅÉëëç=
ÉëíçÅ•ëíáÅç= { Z (u ), u ∈ A, A ⊂ ℜ 2 } I= Åìàçë= î~äçêÉë= éçÇÉã= ëÉê= ÅçåÜÉÅáÇçë= Éã=
íçÇçë=çë=éçåíçë=Ç~=•êÉ~=ÇÉ=ÉëíìÇçK=^=é~êíáê=ÇÉ=ìã~=~ãçëíê~=ÇÉ=ìã=~íêáÄìíç=
z I=ÅçäÉí~Ç~=Éã=î•êáçë=éçåíçë= u =ÅçåíáÇçë=Éã= A I {z (uα ), α = 1,.., n} I=çÄàÉíáî~JëÉ=
áåÑÉêáê=ìã~=ëìéÉêÑ∞ÅáÉ=Åçåí∞åì~=Ççë=î~äçêÉë=ÇÉ= z K=^=Éëíáã~´©ç=ÇÉëíÉ=éêçÅÉëëç=
ÉëíçÅ•ëíáÅç= éçÇÉ= ëÉê= ÑÉáí~= ÇÉ= Ñçêã~= ÅçãéäÉí~ãÉåíÉ= å©çJé~ê~ã¨íêáÅ~= çì= ~=
é~êíáê= ÇÉ= Éëíáã~ÇçêÉë= ÇÉ= âêáÖÉ~ÖÉãI= Åçãç= çë= ÇÉëÅêáíçë= åçë= Å~é∞íìäçë= P= É= Q=
ÇÉëíÉ= äáîêçK= bëëÉë= ãçÇÉäçë= áåÑÉêÉåÅá~áë= Åä•ëëáÅçë= ÇÉ= Éëíáã~´©ç= ÇÉ= ëìéÉêÑ∞ÅáÉë=
ë©ç=ÇÉåçãáå~Ççë=ÇÉ=ÖÉçÉëí~í∞ëíáÅ~K==
= ^= ÖÉçÉëí~í∞ëíáÅ~= ìíáäáò~= Ççáë= íáéçë= ÇÉ= éêçÅÉÇáãÉåíçë= ÇÉ= Éëíáã~´©çW= ~=
âêáÖÉ~ÖÉã=É=~=ëáãìä~´©ç=ÉëíçÅ•ëíáÅ~K=k~=âêáÖÉ~ÖÉãI=Éã=Å~Ç~=éçåíç= uo I=ìã=
î~äçê=Ç~=î~êá•îÉä=~äÉ~íµêá~= Z =¨=Éëíáã~ÇçI= ẑ (uo ) =ìíáäáò~åÇçJëÉ=ìã=Éëíáã~ÇçêI=
Ẑ (uo ) I= = èìÉ= ¨= ~= Ñìå´©ç= Ççë= Ç~Ççë= É= Ç~= Éëíêìíìê~= ÇÉ= Åçî~êáßåÅá~= Éëé~Åá~ä=
Zˆ (u ) = f (C , (n )) K= bëëÉë= Éëíáã~ÇçêÉë= ~éêÉëÉåí~ã= ~äÖìã~ë= éêçéêáÉÇ~ÇÉë=
o

áãéçêí~åíÉëW= ë©ç= å©ç= íÉåÇÉåÅáçëçë= É= µíáãçë= åç= ëÉåíáÇç= ÇÉ= èìÉ= ãáåáãáò~ã=
Ñìå´πÉë=Ççë=Éêêçë=áåÑÉêÉåÅá~áëK===
= k~= ëáãìä~´©ç= ÉëíçÅ•ëíáÅ~I= çë= éêçÅÉÇáãÉåíçë= êÉéêçÇìòÉã= áã~ÖÉåë= Ç~=
Ñìå´©ç= ~äÉ~íµêá~= Z = ~íê~î¨ë= ÇÉ= êÉ~äáò~´πÉë= Éèìáéêçî•îÉáë= Çç= ãçÇÉäç= Çç=
éêçÅÉëëç= ÉëíçÅ•ëíáÅç= Éëí~ÄÉäÉÅáÇçK= `~Ç~= êÉ~äáò~´©ç= í~ãÄÉã= ÅÜ~ã~Ç~= ÇÉ=
áã~ÖÉã= ÉëíçÅ•ëíáÅ~= êÉÑäÉíÉ= ~ë= éêçéêáÉÇ~ÇÉë= ÅçåëáÇÉê~Ç~ë= åç= ãçÇÉäç= ÇÉ=
Ñìå´©ç= ~äÉ~íµêá~= ÅçåëáÇÉê~ÇçK= dÉê~äãÉåíÉ= ~ë= êÉ~äáò~´πÉë= ÇÉîÉã= Üçåê~ê= çë=
Ç~Ççë=É=êÉéêçÇìòáê=~=Ñìå´©ç=ÇÉ=ÇáëíêáÄìá´©ç=~Åìãìä~Ç~=ìåáî~êá~Ç~I= F (z ) I=É=~=
Éëíêìíìê~=ÇÉ=Åçî~êáßåÅá~=Éëé~Åá~ä=ÅçåëáÇÉê~Ç~K===
= ^=âêáÖÉ~ÖÉã=íÉã=éçêí~åíç=Åçãç=çÄàÉíáîç=Åçãéçê=~=ëìéÉêÑáÅáÉ= z =~íê~î¨ë=
ÇÉ= Éëíáã~íáî~ë= éçåíì~áë= µíáã~ëI= ẑ (u ) I= Éåèì~åíç= èìÉ= ~= ëáãìä~´©ç= çÄàÉíáî~=
êÉéêçÇìòáê= ~= î~êá~ÄáäáÇ~ÇÉ= Éëé~Åá~ä= ÇÉëë~= ëìéÉêÑ∞ÅáÉ= ~íê~î¨ë= ÇÉ= éçëë∞îÉáë=
êÉéêÉëÉåí~´πÉë=ÖäçÄ~áë=Çç=ãçÇÉäç=ÇÉ=Ñìå´©ç=~äÉ~íµêá~K=m~ê~=èìÉ=çë=éêçÅÉëëçë=
áåÑÉêÉåÅá~áëI=Ç~=âêáÖÉ~ÖÉã=É=Ç~=ëáãìä~´©çI=éçëë~ã=ëÉê=êÉ~äáò~ÇçëI=¨=åÉÅÉëë•êáç=
Ñ~òÉê= ~= ÜáéµíÉëÉ= èìÉ= ç= éêçÅÉëëç= ÉëíçÅ•ëíáÅç= ëÉà~= Éëí~Åáçå•êáç= ÇÉ= ëÉÖìåÇ~=
çêÇÉãI= áëíç= ¨I= ìã= éêçÅÉëëç= Åìà~= ã¨Çá~= ¨= Åçåëí~åíÉ= åç= Éëé~´ç= É= Åìà~=
Åçî~êáßåÅá~=ÇÉéÉåÇÉ=~éÉå~ë=Çç=îÉíçê=ÇáëíßåÅá~=ÉåíêÉ=~ë=~ãçëíê~ëK=kÉëíÉ=äáîêçI=
ç= ÑçÅç= ëÉê•= ëçãÉåíÉ= åçë= éêçÅÉÇáãÉåíçë= ÇÉ= âêáÖÉ~ÖÉãI= ~éêÉëÉåí~Ççë= åç=
Å~é∞íìäç=P=É=QK=
s~êá~´©ç=ÇáëÅêÉí~=
= lë= ãçÇÉäçë= áåÑÉêÉåÅá~áë= ÇÉ= î~êá~´©ç= ÇáëÅêÉí~= ÇáòÉã= êÉëéÉáíç= ¶=
ÇáëíêáÄìá´©ç= ÇÉ= ÉîÉåíçë= Åìà~= äçÅ~äáò~´©ç= Éëí•= ~ëëçÅá~Ç~= ~= •êÉ~ë= ÇÉäáãáí~Ç~ë=
éçê=éçä∞ÖçåçëK=bëíÉ=Å~ëç=çÅçêêÉ=Åçã=ãìáí~=ÑêÉèΩÆåÅá~=èì~åÇç=äáÇ~ãçë=Åçã=
ÑÉå∑ãÉåçë= ~ÖêÉÖ~Ççë= éçê= ãìåáÅ∞éáçëI= Ä~áêêçë= çì= ëÉíçêÉë= ÅÉåëáí•êáçëI= Åçãç=
éçéìä~´©çI= ãçêí~äáÇ~ÇÉ= É= êÉåÇ~K= kÉëíÉ= Å~ëçI= å©ç= Çáëéçãçë= Ç~= äçÅ~äáò~´©ç=
Éñ~í~=Ççë=ÉîÉåíçëI=ã~ë=ÇÉ=ìã=î~äçê=~ÖêÉÖ~Çç=éçê=•êÉ~K=l=çÄàÉíáîç=¨=ãçÇÉä~ê=
ç= é~Çê©ç= ÇÉ= çÅçêêÆåÅá~= Éëé~Åá~ä= Çç= ÑÉå∑ãÉåç= ÖÉçÖê•ÑáÅç= Éã= ÉëíìÇçK= lë=
ãçÇÉäçë=ÇÉ=î~êá~´©ç=ÇáëÅêÉí~=ëÉê©ç=ÉëíìÇ~Ççë=åç=Å~é∞íìäç=R=Çç=äáîêçK=
= kÉëíÉ= íáéç= ÇÉ= ãçÇÉä~ÖÉã= ÅçåëáÇÉê~JëÉ= èìÉ= ç= Éëé~´ç= ÖÉçÖê•ÑáÅç= Éã=
ÉëíìÇçI=~=êÉÖá©ç=^I=¨=ìã=Åçåàìåíç=Ñáñç=ÇÉ=ìåáÇ~ÇÉë=Éëé~Åá~áëK=l=ãçÇÉäç=ÇÉ=
ÇáëíêáÄìá´©ç=ã~áë=ìíáäáò~Çç=ÅçåëáÇÉê~=ìã=éêçÅÉëëç=ÉëíçÅ•ëíáÅç= {Z i : i = 1,..., n} I=
Åçãéçëíç= éçê= ìã= Åçåàìåíç= ÇÉ= î~êá•îÉáë= ~äÉ~íµêá~ëK= _ìëÅ~JëÉ= Åçåëíêìáê= ìã~=
~éêçñáã~´©ç= é~ê~= ~= ÇáëíêáÄìá´©ç= Åçåàìåí~= ÇÉëë~ë= î~êá•îÉáë= Z = {Z1 , ..., Z n } I=
çåÇÉ= Å~Ç~= î~êá•îÉä= ~äÉ~íµêá~= Éëí•= ~ëëçÅá~Ç~= ~= ìã~= Ç~ë= •êÉ~ë= É= éçëëìá= ìã~=
ÇáëíêáÄìá´©ç=~=ëÉê=Éëíáã~Ç~K=pÉ=ç=éêçÅÉëëç=¨=Éëí~Åáçå•êáçI=ç=î~äçê=ÉëéÉê~Çç=ÇÉ=
Z i ¨= ~= ã¨Çá~= ÖäçÄ~ä= Ç~= êÉÖá©ç= É= ~= Éëíêìíìê~= ÇÉ= Åçî~êáßåÅá~= ÇÉéÉåÇÉ=
ìåáÅ~ãÉåíÉ=Ç~=ÇáëíßåÅá~I=çì=Ç~=Éëíêìíìê~=ÇÉ=îáòáåÜ~å´~=ÉåíêÉ=~ë=•êÉ~ëK=

1.6 CONCLUSÕES

= bëíÉ= Å~é∞íìäç= ~éêÉëÉåíçì= çë= éêáåÅáé~áë= ÅçåÅÉáíçë= ÇÉ= ~å•äáëÉ= Éëé~Åá~ä= ÇÉ=
Ç~Ççë= ÖÉçÖê•ÑáÅçë= É= çë= éêáåÅáé~áë= íáéçë= ÇÉ= Ç~Ççë= É= ëì~ë= êÉéêÉëÉåí~´πÉë=
Åçãéìí~Åáçå~áëK= lë= ÇáÑÉêÉåíÉë= íáéçë= É= éêçÄäÉã~ë= ÇÉ= ^å•äáëÉ= bëé~Åá~ä= ÇÉ=
Ç~Ççë= ÖÉçÖê•ÑáÅçë= ë©ç= êÉëìãáÇçë= å~= q~ÄÉä~= NJNI= èìÉ= ëÉêîáì= é~ê~= ~=
çêÖ~åáò~´©ç=é~ê~=ÇÉëíÉ=äáîêçK=
Tabela 1-1
Tipos de Dados e Problemas em Análise Espacial =
Tipos de Dados Exemplo Problemas Típicos
Analise de Eventos Ocorrência de Determinação de Padrões
Padrões Localizados Doenças e Agregamentos
Pontuais
Análise de Amostras de Depósitos Interpolação e Medidas de
Superfícies Campo e Minerais Incerteza
Matrizes
Análise de Áreas Polígonos e Dados Regressão e Distribuições
Atributos Censitários Conjuntas

=
= m~ê~=êÉëìãáê=~=ÇáëÅìëë©çI=¨=áãéçêí~åíÉ=ÅçåëáÇÉê~ê=ç=éêçÄäÉã~=ÅçåÅÉáíì~ä=
Ç~=^å•äáëÉ=bëé~Åá~ä=Çç=éçåíç=ÇÉ=îáëí~=Çç=ìëì•êáçI=èìÉ=éçÇÉ=ëÉê=êÉëìãáÇç=å~=
cáÖìê~= NJVK= lë= ÉëéÉÅá~äáëí~ë= Ççë= Ççã∞åáçë= Çç= ÅçåÜÉÅáãÉåíç= EÅçãç= `áÆåÅá~=
Ççë= pçäçëI= dÉçäçÖá~= É= p~∫ÇÉ= m∫ÄäáÅ~F= ÇÉëÉåîçäîÉã= íÉçêá~ë= ëçÄêÉ= çë=
ÑÉå∑ãÉåçëI= Åçã= ëìéçêíÉ= Ç~ë= í¨ÅåáÅ~ë= ÇÉ= îáëì~äáò~´©ç= Ççë= pfdK= bëí~ë= íÉçêá~ë=
áåÅäìÉã=ÜáéµíÉëÉë=ÖÉê~áë=ëçÄêÉ=ç=Åçãéçêí~ãÉåíç=Éëé~Åá~ä=Ççë=Ç~ÇçëK=^=é~êíáê=
ÇÉëí~ë= íÉçêá~ëI= ¨= åÉÅÉëë•êáç= èìÉ= ç= ÉëéÉÅá~äáëí~= ÑçêãìäÉ= ãçÇÉäçë= áåÑÉêÉåÅá~áë=
èì~åíáí~íáîçëI= èìÉ= éçÇÉã= ëÉê= ëìÄãÉíáÇçë= ~= íÉëíÉë= ÇÉ= î~äáÇ~´©ç= É= ÇÉ=
ÅçêêçÄçê~´©çI=~íê~î¨ë=Ççë=éêçÅÉÇáãÉåíçë=ÇÉ=^å•äáëÉ=bëé~Åá~äK=lë=êÉëìäí~Ççë=
åìã¨êáÅçë= éçÇÉã= Éåí©ç= Ç~ê= ëìéçêíÉ= çì= ~àìÇ~ê= ~= êÉàÉáí~ê= ÅçåÅÉáíçë=
èì~äáí~íáîçë=Ç~ë=íÉçêá~ë=ÇÉ=Ççã∞åáçK==
=

Domínios do Conhecimento

Modelos
Teorias Inferenciais

Hipóteses
Conceitos
Qualitativos Testáveis

Análise
Espacial
=

Figura 1-9 – Relação entre análise espacial e as teorias disciplinares.


= `çãç= ÇáëÅìíáÇç= åÉëíÉ= Å~é∞íìäçI= É= ÉñÉãéäáÑáÅ~Çç= Åçã= ç= Å~ëç= Ç~=
äÉáëÜã~åáçëÉ= îáëÅÉê~äI= å©ç= Ü•= ìã= “ãçÇÉäç= ÅÉêíçÒ= é~ê~= Å~Ç~= éêçÄäÉã~K= lë=
ãçÇÉäçë= áåÑÉêÉåÅá~áë= ë©ç= ∫íÉáë= ëçÄêÉíìÇç= é~ê~= Ö~åÜ~êãçë= ã~áçê=
ÅçåÜÉÅáãÉåíç=Çç=éêçÄäÉã~K=jìáí~ë=îÉòÉë=ëÉê•=éêÉÅáëç=ÅçãÄáå~ê=~ë=ÇáÑÉêÉåíÉë=
~ÄçêÇ~ÖÉåë=EéêçÅÉëëçë=éçåíì~áëI=î~êá~´©ç=Åçåí∞åì~=É=î~êá~´©ç=ÇáëÅêÉí~F=é~ê~=
~ÖêÉÖ~ê= áåÑçêã~´©ç= ~ç= éêçÄäÉã~= ÉëíìÇ~ÇçK= kÉëëÉ= Å~ëçI= å©ç= Ü•= “êÉÅÉáí~= ÇÉ=
ÄçäçÒ= É= ëÉà~= èì~ä= Ñçê= ç= Ççã∞åáç= Çç= ÅçåÜÉÅáãÉåíçI= çë= ÉëéÉÅá~äáëí~ë= áê©ç= ëÉ=
ÄÉåÉÑáÅá~ê=Éã=ÅçåÜÉÅÉê=íçÇ~ë=~ë=í¨ÅåáÅ~ë=~èìá=~éêÉëÉåí~Ç~ëK==
= bëí~= îáë©ç= ÉñéêÉëë~= ~ç= ãÉëãç= íÉãéç= ç= éçíÉåÅá~ä= É= ~ë= äáãáí~´πÉë= Ç~=
^å•äáëÉ=bëé~Åá~äK=^ë=í¨ÅåáÅ~ë=èì~åíáí~íáî~ë=ÇÉ=^å•äáëÉ=bëé~Åá~ä=ÇÉîÉã=ëÉãéêÉ=
Éëí~ê=~=ëÉêîá´ç=Çç=ÅçåÜÉÅáãÉåíç=Ççë=ÉëéÉÅá~äáëí~ë=É=åìåÅ~=ëÉê=ìíáäáò~Ç~ë=Åçãç=
ìã= Ñáã= Éã= ëáK= pÉì= ìëç= ÅçåëáëíÉåíÉ= êÉèìÉê= èìÉ= Çì~ë= éê¨JÅçåÇá´πÉë= ëÉà~ã=
ë~íáëÑÉáí~ëW= ç= Ççã∞åáç= Ççë= ÑìåÇ~ãÉåíçë= íɵêáÅçë= ÇÉ= dÉçéêçÅÉëë~ãÉåíç= É=
bëí~í∞ëíáÅ~= bëé~Åá~ä= É= ìã~= ãÉíçÇçäçÖá~= ÇÉ= íê~Ä~äÜç= ëµäáÇ~I= êÉëìäí~Çç= Ç~=
~ëëçÅá~´©ç= ÇÉ= ãçÇÉäçë= ã~íÉã•íáÅçë= EåÉÅÉëë~êá~ãÉåíÉ= êÉÇìÅáçåáëí~ëF= Åçã= ~=
áåíÉêéêÉí~´©ç=EåÉÅÉëë~êá~ãÉåíÉ=ëìÄàÉíáî~F=Çç=ÉëéÉÅá~äáëí~K=

= ^=åÉÅÉëëáÇ~ÇÉ=ÇÉ=ÅçãÄáå~ê=ÇáÑÉêÉåíÉë=ãçÇÉäçë=áåÑÉêÉåÅá~áë=É=ÇÉ=Çáëéçê=ÇÉ=
ìã=ÅçåÜÉÅáãÉåíç=ëµäáÇ~ë=Ç~ë=ÇáÑÉêÉåíÉë=í¨ÅåáÅ~ë=ÇÉÅçêêÉ=Ç~=éêµéêá~=å~íìêÉò~=
Çç=Éëé~´ç=ÖÉçÖê•ÑáÅçK=m~ê~=ìë~ê=~=Ñçêãìä~´©ç=ÇÉ=jáäíçå=p~åíçëI=ç=Éëé~´ç=¨=
ìã~= íçí~äáÇ~ÇÉI= ÉñéêÉëë~= éÉä~ë= Çì~äáÇ~ÇÉë= ÉåíêÉ= Ñçêã~= É= Ñìå´©ç= É= ÉåíêÉ=
Éëíêìíìê~= =É= éêçÅÉëëçX= Éëí~ë= éçä~êáÇ~ÇÉë= ë©ç= ÉîáÇÉåÅá~Ç~ë= èì~åíç= ìíáäáò~ãçë=
ÑÉêê~ãÉåí~ë= ~å~ä∞íáÅ~ëK= `çã= ç= ìëç= ÇÉ= pfd= É= ÇÉ= ~å•äáëÉ= Éëé~Åá~äI= éçÇÉãçë=
Å~ê~ÅíÉêáò~ê= ~ÇÉèì~Ç~ãÉåíÉ= ~= Ñçêã~= ÇÉ= çêÖ~åáò~´©ç= Çç= Éëé~´çI= ã~ë= å©ç= ~=
Ñìå´©ç=ÇÉ=Å~Ç~=ìã=ÇÉ=ëÉìë=ÅçãéçåÉåíÉëX=éçÇÉãçë=~áåÇ~=Éëí~ÄÉäÉÅÉê=èì~ä=~=
Éëíêìíìê~= Çç= Éëé~´çI= ~ç= ãçÇÉä~ê= ç= ÑÉå∑ãÉåç= Éã= ÉëíìÇçI= ã~ë= ÇáÑáÅáäãÉåíÉ=
éçÇÉêÉãçë=Éëí~ÄÉäÉÅÉê=~=å~íìêÉò~=ÇáåßãáÅ~=Ççë=éêçÅÉëëçëI=ëÉà~ã=å~íìê~áë=çì=
ëçÅá~áëK= ^= êÉä~´©ç= ÉåíêÉ= Éëíêìíìê~= É= éêçÅÉëëç= ~éÉå~ë= éçÇÉê•= ëÉ= êÉëçäîÉê=
èì~åÇç= Ç~= ÅçãÄáå~´©ç= ÉåíêÉ= ~ë= í¨ÅåáÅ~ë= ~å~ä∞íáÅ~ë= EèìÉ= ÇÉëÅêÉîÉã= ~=
Éëíêìíìê~= ÇÉ= çêÖ~åáò~´©ç= Çç= Éëé~´çF= É= ç= ÉëéÉÅá~äáëí~= EèìÉ= ÅçãéêÉÉåÇÉ= ~=
ÇáåßãáÅ~=Çç=éêçÅÉëëçFK==
= bëí~= ~ÄçêÇ~ÖÉã= åçë= éÉêãáíÉ= Åçåëíêìáê= ìã~= îáë©ç= å©ç= ã~åáèìÉ∞ëí~= Ç~=
íÉÅåçäçÖá~ë= ÇÉ= ^å•äáëÉ= bëé~Åá~ä= É= dÉçéêçÅÉëë~ãÉåíçK= kÉã= é~å~Ũá~= Åçã=
éêçÅÉÇáãÉåíçë=ÇÉ=~éäáÅ~´©ç=ìåáîÉêë~äI=åÉã=ãÉêç=áåëíêìãÉåíç=ÇÉ=~ìíçã~´©ç=
ÇÉ= í¨ÅåáÅ~ë= Éëí~ÄÉäÉÅáÇ~ëI= êÉèìÉêÉã= ÇÉ= ëÉìë= ìëì•êáçë= ìã~= éçëíìê~= ~íáî~= É=
Åê∞íáÅ~K=bëíÉ=Éèìáä∞Äêáç=ÉåíêÉ=Ñçêã~=É=Ñìå´©ç=É=ÉåíêÉ=Éëíêìíìê~=É=éêçÅÉëëç=Éëí•=
å~=ÉëëÆåÅá~=Çç=ìëç=~ÇÉèì~Çç=Ççë=ÅçåÅÉáíçë=~éêÉëÉåí~Ççë=åÉëíÉ=äáîêçK=

1.7 REFERÊNCIAS

= l=äáîêçJíÉñíç=Ä•ëáÅç=ëçÄêÉ=~å•äáëÉ=Éëé~Åá~äI=ÉëÅêáíç=ÇÉ=ã~åÉáê~=ÇáÇ•íáÅ~=É=
Åçã=Öê~åÇÉ=èì~åíáÇ~ÇÉ=ÇÉ=ÉñÉãéäçëI=¨=“pé~íá~ä=a~í~=^å~äóëáë=Äó=bñ~ãéäÉÒ=
E_~áäÉó=~åÇ=d~ííêÉäI=NVVRFK=pÉì=ÅçåíÉ∫Çç=É=~ë=ÇáëÅìëëπÉë=Åçã=ç=éêçÑK=qêÉîçê=
_~áäÉó= Ñçê~ã= ~= áåÑäìÆåÅá~= éêáåÅáé~ä= é~ê~= çë= ~ìíçêÉëK= lìíêç= äáîêç= íÉñíç=
áåíêçÇìíµêáç= ÇÉ= Å~ê•íÉê= ÖÉê~ä= ¨= cçíÜÉêáåÖÜ~ã= Éí= ~äK= EOMMNFI= èìÉI= ÉãÄçê~=
ãÉåçë=ÇáÇ•íáÅç=èìÉ=ç=äáîêç=ÇÉ=_~áäÉó=É=d~ííêÉäI=íÉã=êÉëìäí~Ççë=ã~áë=êÉÅÉåíÉëK=
m~ê~= çë= Ç~Ççë= ëçÅáçÉÅçå∑ãáÅçëI= ç= äáîêç= ÇÉ= j~êíáå= ENVVRF= ~áåÇ~= êÉéêÉëÉåí~=
ìã~= Äç~= áåíêçÇì´©çI= ÉãÄçê~= Åçã= ãìáí~ë= äáãáí~´πÉë= å~= é~êíÉ= ÇÉ= Éëí~í∞ëíáÅ~=
Éëé~Åá~äK= bã= mçêíìÖìÆëI= ç= äáîêç= êÉÅÉåíÉ= ÇÉ= oÉå~íç= ^ëëìå´©ç= EOMMNF=
êÉéêÉëÉåí~=ìã~=ÑçåíÉ=~íì~äáò~Ç~=É=ÄÉãJÉëÅêáí~=ÇÉ=êÉÑÉêÆåÅá~I=ÉëéÉÅá~äãÉåíÉ=åç=
íçÅ~åíÉ= ~= Éëíáã~ÇçêÉë= Ä~óÉëá~åçë= É= ~= íÉëíÉë= ÇÉ= ÅçåÖäçãÉê~Ççë= é~ê~= •êÉ~ë= É=
ÉîÉåíçëK=
= m~ê~= çë= ÉëíìÇáçëçë= Åçã= Ñçêã~´©ç= ã~íÉã•íáÅ~= ã~áë= ëµäáÇ~I= ç= íÉñíç= ÇÉ=
`êÉëëáÉ=ENVVNF=~éêÉëÉåí~=ìã~=ÑìåÇ~ãÉåí~´©ç=ëçÄêÉ=ç=íÉã~I=Åçã=ÆåÑ~ëÉ=åçë=
ãçÇÉäçë= ÇÉ= î~êá~´©ç= Åçåí∞åì~K= rã~= êÉÑÉêÆåÅá~= Ä•ëáÅ~= ëçÄêÉ= ÖÉçÉëí~í∞ëíáÅ~I=
Åçã= ìã= Åçåàìåíç= ÉñíÉåëáîç= ÇÉ= ÉñÉãéäçë= ¨= ç= äáîêç= ÇÉ= fëë~âë= É= pêáî~ëí~î~=
ENVUVFK= ^= ÇÉëÅêá´©ç= Ç~= dpif_I= ìã~= Ç~ë= ÄáÄäáçíÉÅ~ë= ã~áë= ìíáäáò~Ç~ë= é~ê~= ç=
ÇÉëÉåîçäîáãÉåíç= ÇÉ= éêçÖê~ã~ë= Éã= ÖÉçÉëí~í∞ëíáÅ~I= éçÇÉ= ëÉê= ÉåÅçåíê~Ç~= åç=
äáîêç=ÇÉ=aÉìíëÅÜ=É=gçìêåÉä=ENVVOFK=
= m~ê~=ìã~=áåíêçÇì´©ç=ÖÉê~ä=~ç=dÉçéêçÅÉëë~ãÉåíçI=ç=äÉáíçê=éçÇÉ=Åçåëìäí~ê=
`ßã~ê~= Éí= ~äK= EOMMNF= çì= _ìêêçìÖÜ= É= jÅaçååÉää= ENVVUFK= `çã= êÉä~´©ç= ¶=
áåíÉÖê~´©ç= ÉåíêÉ= ÖÉçÉëí~í∞ëíáÅ~= É= pfdëI= ç= äÉáíçê= ÇÉîÉ= êÉÑÉêáêJëÉ= ~= `~ã~êÖç=
ENVVTFI= èìÉ= ÇÉëÅêÉîÉ= ç= ÇÉëÉåîçäîáãÉåíç= ÇÉ= ìã= ãµÇìäç= ÖÉçÉëí~í∞ëíáÅç= åç=
~ãÄáÉåíÉ= pmofkdK= l= ÉñÉãéäç= ÇÉ= p~åí~= `~í~êáå~= Éëí•= Ä~ëÉ~Çç= åç= íê~Ä~äÜç=
ÇÉ=_∏åáëÅÜ=EOMMNFK=^éäáÅ~´πÉë=ÇÉ=^å•äáëÉ=bëé~Åá~ä=é~ê~=éêçÄäÉã~ë=ÇÉ=ë~∫ÇÉ=
é∫ÄäáÅ~=ë©ç=ÇáëÅìíáÇ~ë=Éã=`~êî~äÜç=ENVVTFK=
^ëëìå´©çI=oK=EOMMNFK=bëí~í∞ëíáÅ~=bëé~Åá~ä=Åçã=^éäáÅ~´πÉë=Éã=béáÇÉãáçäçÖá~I=
bÅçåçãá~I= pçÅáçäçÖá~K= _Éäç= eçêáòçåíÉI= rcjdK= EÇáëéçå∞îÉä= Éã=
YïïïKÉëíKìÑãÖKÄêLú~ëëìåÅ~ç[F=
_~áäÉóI=qK=~åÇ=^K=d~ííêÉä=ENVVRFK=pé~íá~ä=a~í~=^å~äóëáë=Äó=bñ~ãéäÉK=içåÇçåI=
içåÖã~åK=
_∏åáëÅÜI= pK= EOMMNF= dÉçéêçÅÉëë~ãÉåíç= ^ãÄáÉåí~ä= Åçã= qê~í~ãÉåíç= ÇÉ=
fåÅÉêíÉò~W=l=`~ëç=Çç=wçåÉ~ãÉåíç=mÉÇçÅäáã•íáÅç=é~ê~=~=pçà~=åç=bëí~Çç=
ÇÉ=p~åí~=`~í~êáå~K=aáëëÉêí~´©ç=EjÉëíê~Çç=Éã=pÉåëçêá~ãÉåíç=oÉãçíçF=Ó=
fåëíáíìíç=k~Åáçå~ä=ÇÉ=mÉëèìáë~ë=bëé~Åá~áëI=p©ç=gçë¨=Ççë=`~ãéçëK=
_ìêêçìÖÜI= mK^KX= jÅaçåÉääI= oKX= mêáåÅáéäÉë= çÑ= dÉçÖê~éÜáÅ~ä= fåÑçêã~íáçå=
póëíÉãëK=lñÑçêÇI=lñÑçêÇ=råáîÉêëáíó=mêÉëëI=NVVUK==
`ßã~ê~I=dKX=a~îáëK`KX=jçåíÉáêçI=^KjKX=aD^äÖÉI=gK`K=fåíêçÇì´©ç=¶=`áÆåÅá~=Ç~=
dÉçáåÑçêã~´©çK=p©ç=gçë¨=Ççë=`~ãéçëI=fkmbI=OMMN=EO~K=ÉÇá´©çI=êÉîáëí~=É=
~ãéäá~Ç~I=Çáëéçå∞îÉä=Éã=ïïïKÇéáKáåéÉKÄêLÖáäÄÉêíçLäáîêçFK=
`~ã~êÖçI= bK= ENVVTFK= aÉëÉåîçäîáãÉåíçI= fãéäÉãÉåí~´©ç= = É= = qÉëíÉ= = ÇÉ=
mêçÅÉÇáãÉåíçë= = dÉçÉëí~í∞ëíáÅçë= = EhêáÖÉ~ÖÉãF= åç= páëíÉã~= ÇÉ=
mêçÅÉëë~ãÉåíç= ÇÉ= fåÑçêã~´πÉë= dÉçêêÉÑÉêÉåÅá~Ç~ë= EpmofkdFK=
aáëëÉêí~´©ç= EjÉëíê~Çç= Éã= pÉåëçêá~ãÉåíç= oÉãçíçF= Ó= fåëíáíìíç= k~Åáçå~ä=
ÇÉ=mÉëèìáë~ë=bëé~Åá~áëI=p©ç=gçë¨=Ççë=`~ãéçëK=
`~êî~äÜçI= jKpK= ENVVTF= ^éäáÅ~´©ç= ÇÉ= j¨íçÇçë= ÇÉ= ^å•äáëÉ= bëé~Åá~ä= å~=
`~ê~ÅíÉêáò~´©ç= ÇÉ= žêÉ~ë= ÇÉ= oáëÅç= ¶= p~∫ÇÉK= qÉëÉ= ÇÉ= açìíçê~Çç= Éã=
båÖÉåÜ~êá~= _áçã¨ÇáÅ~I= `lmmbLrcogK= EfåíÉêåÉíW=
YïïïKéêçÅÅKÑáçÅêìòKÄêLúÅ~êî~äÜç[=FK=
`êÉëëáÉI=kK=ENVVNF=pí~íáëíáÅë=Ñçê=pé~íá~ä=a~í~K=`ÜáÅÜÉëíÉêI=gçÜå=táäÉóK=
aÉìíëÅÜI=`K=É=^K=gçìêåÉä=ENVVOFK=dpif_W=dÉçëí~íáëíáÅ~ä=pçÑíï~êÉ=iáÄê~êó=~åÇ=
ìëÉêÛë=ÖìáÇÉK=kÉï=vçêâI=lñÑçêÇ=råáîÉêëáíó=mêÉëëK=
cçíÜÉêáåÖÜ~ãI= ^KpKI= `K= _êìåëÇçå= ^åÇ= jKbK= `Ü~êäíçå= EOMMMFI= nì~åíáí~íáîÉ=
dÉçÖê~éÜóI=içåÇçåW=p~ÖÉK=
fëë~âëI=jK=É=bK=pêáî~ëí~î~=ENVUVFK=^å=fåíêçÇìÅíáçå=íç=^ééäáÉÇ=dÉçëí~íáëíáÅëK==
kÉï=vçêâI=lñÑçêÇ=råáîÉêëáíó=mêÉëëI=NVUVK=
j~êíáåI= aK= ENVVRFK= dÉçÖê~éÜáÅ= fåÑçêã~íáçå= póëíÉãëW= pçÅáçÉÅçåçãáÅ=
^ééäáÅ~íáçåëK=içåÇçåI=oçìíäÉÇÖÉK=
qìÑíÉI=bK=ENVUPFK=qÜÉ=sáëì~ä=aáëéä~ó=çÑ=nì~åíáí~íáîÉ=fåÑçêã~íáçåK=`ÜÉëÜáêÉI=
`qI=dê~éÜáÅë=mêÉëëK=

=
APÊNDICE
SOFTWARE PARA ANÁLISE ESPACIAL
= ^= éçéìä~êáÇ~ÇÉ= Ççë= ëáëíÉã~ë= ÇÉ= áåÑçêã~´©ç= ÖÉçÖê•ÑáÅ~= É= ç=
ÇÉëÉåîçäîáãÉåíç= É= î~äáÇ~´©ç= Ç~ë= í¨ÅåáÅ~ë= ÇÉ= Éëí~í∞ëíáÅ~= Éëé~Åá~äI= ÇÉëÅêáí~ë=
åÉëíÉ= äáîêçI= íÉã= ãçíáî~Çç= ÉãéêÉë~ë= É= áåëíáíìá´πÉë= ÉåîçäîáÇ~ë= åç=
ÇÉëÉåîçäîáãÉåíç=ÇÉ=ëçÑíï~êÉI=~=ÄìëÅ~ê=Ñçêã~ë=ÇÉ=ìåáÑáÅ~ê=Éëí~ë=~ÄçêÇ~ÖÉåëK=
^í¨= éçìÅç= íÉãéçI= Éê~= ãìáíç= ÇáÑ∞Åáä= ÉåÅçåíê~ê= pfdë= Åçã= Ñìå´πÉë= ÇÉ= ~å•äáëÉ=
Éëé~Åá~äK=j~áë=êÉÅÉåíÉãÉåíÉI=Éëí~=ëáíì~´©ç=Éëí•=ãìÇ~åÇç=ê~éáÇ~ãÉåíÉ=É=Äç~=
é~êíÉ= Ç~ë= í¨ÅåáÅ~ë= ÇÉëÅêáí~ë= åÉëíÉ= äáîêç= à•= Éëí•= áåíÉÖê~Ç~= ~= ~äÖìã= Ççë= pfdë=
Çáëéçå∞îÉáë=åç=_ê~ëáäK=bã=Ñìå´©ç=Ç~=~Äê~åÖÆåÅá~=Ç~ë=í¨ÅåáÅ~ë=ÇÉëÅêáí~ëI=åÉã=
íçÇ~ë=Éëí©ç=áåíÉÖê~Ç~ë=åìã=∫åáÅç=ëçÑíï~êÉ=É=ç=ÉëéÉÅá~äáëí~=éçÇÉ=åÉÅÉëëáí~ê=ÇÉ=
ÅçãÄáå~ê=ÇáÑÉêÉåíÉë=ëáëíÉã~ëK==
= m~ê~= áåÑçêã~´©ç= Çç= äÉáíçêI= áåÅäì∞ãçë= ~= ëÉÖìáê= ìã~= ÇÉëÅêá´©ç= ÇÉ=
ÄáÄäáçíÉÅ~ë= É= ëçÑíï~êÉë= ÉëéÉÅá~äáò~Ççë= Éã= ~å•äáëÉ= Éëé~Åá~ä= É= ÇÉ= ëáëíÉã~ë= ÇÉ=
áåÑçêã~´©ç=ÖÉçÖê•ÑáÅ~=èìÉ=ÇáëéπÉã=ÇÉ=Ñìå´πÉë=ÇÉ=~å•äáëÉ=Éëé~Åá~äK=a~Ç~ë=~ë=
ê•éáÇ~ë=ãìÇ~å´~ëI=éÉÇÉJëÉ=~ç=äÉáíçê=èìÉ=ÅçåëáÇÉêÉ=ëÉê=Éëí~=ìã~=äáëí~=é~êÅá~ä=É=
åÉÅÉëë~êá~ãÉåíÉ= áåÅçãéäÉí~K= m~ê~= ìã~= îáë©ç= ~íì~äáò~Ç~I= êÉÅçãÉåÇ~JëÉ= ìã~=
îáëáí~= ~ç= ë∞íáç= ïïïK~áJÖÉçëí~íëKçêÖI= ã~åíáÇç= éçê= dêÉÖçêáÉ= aìÄçáëI= É= èìÉ=
êÉéêÉëÉåí~=ìã=ÉñÅÉäÉåíÉ=éçêí~ä=ëçÄêÉ=ç=íÉã~K=
= ^ä¨ã=Ççë=éêçÖê~ã~ë=Åáí~Ççë=~=ëÉÖìáêI=ÇÉîÉJëÉ=êÉëë~äí~ê=èìÉ=ç=faofpf=É=ç=
do^ppI=Ççáë=pfd=ãìáíç=éçéìä~êÉëI=íÉã=áåíÉêÑ~ÅÉ=Åçã=ç=~ãÄáÉåíÉ=dpq^q=É=
éçêí~åíç= éçÇÉã= êÉ~äáò~ê= ~å•äáëÉë= ÖÉçÉëí~í∞ëíáÅ~ëK= sÉà~JëÉ= ç= ÅçåíÉ∫Çç= Ç~=
q~ÄÉä~=NJPK=
TABELA 1-2
GSLIB – Biblioteca para Geoestatística

Descrição Biblioteca para desenvolvimento de programas em geoestatística,


escrita em Fortran 90
Autores Clayton Deutsch e André Journel
Disponibilidade Software livre em <www.gslib.com>
Funções Análise Exploratória: estatísticas descritivas, cálculo de variograma (2D
e 3D).

Estimação: krigeagem simples e ordinária, com modelo de tendência,


co-krigagem, krigeagem por indicação, simulação seqüencial
(gaussiana e por indicação), com suporte a variáveis contínuas ou
categóricas.
Aplicabilidade Geoestatística Linear (cap 3) e por Indicação (cap 4)

=
=TABELA 1-3
GSTAT – Software para Geoestatística

Descrição Ambiente para desenvolvimento de programas em geoestatística,


escrito em C. Possui interface com IDRISI e GRASS.
Autores Edsger Predesma
Disponibilidade Software livre em <www.gstat.org>
Funções Análise Exploratória: estatísticas descritivas, cálculo de variograma (2D
e 3D).

Estimação: krigeagem simples, ordinária e universal (com modelo de


tendência), co-krigagem, krigeagem por indicação, simulação
seqüencial (gaussiana e por indicação), com suporte a variáveis
contínuas ou categóricas.
Aplicabilidade Geoestatística Linear (cap 3) e por Indicação (cap 4)
TABELA 1-4
ClusterSeer – Clustering de Processos Pontuais=

Descrição Programa para detecção de clusters (conglomerados) associados a


eventos
Autores Godfrey Jacquez
Disponibilidade Software comercial em <www.terraseer.com>
Funções Detecção de Conglomerados Espaciais: testes focados (Diggle, Bithell,
Besag e Newell, Turnbull) e globais (Besag e Newell, função K de
Ripley).
Detecção de Conglomerados Espaço-Temporais (Kulldorff)
Aplicabilidade Análise de Eventos (cap 2)

=
TABELA 1-5
CrimeStat – Análise de Estatísticas Criminais=

Descrição Software para análise de eventos associados a criminalidade


Autores
Disponibilidade Software livre em <www.icpsr.umich.edu/NACJD/crimestat.html>
Funções Estatísticas descritivas: centro médio, elipse dos desvios padrões,
índice I de Moran.
Detecção de conglomerados: função K de Ripley, k-médias e índices
locais de Moran.
Estimador de densidade: “kernel estimator”.
Aplicabilidade Análise de Eventos (cap 2)

=
TABELA 1-5
SpaceStat – Análise Espacial de Áreas =

Descrição Software para análise espacial de áreas, com ênfase em técnicas de


regressão espacial. Possui interface com ArcView.
Autor Luc Anselin
Disponibilidade Comercial em http://www.spacestat.com/
Funções Análise ExploratóriaW=estatísticas descritivas, índice I de Moran (global
e local), mapa de Moran, índice C de Geary, com testes de hipóteses
sobre autocorrelação espacial.
EstimaçãoW= Regressão por mínimos quadrados, e regressão espacial
com várias técnicas: modelos SAR (spatial lag e spatial error), com
inclusão de heterocedasticidade.
Aplicabilidade Análise de Áreas (capítulo 5)

=
TABELA 1-6
SPRING =

Descrição Software de geoprocessamento de propósito geral, com funções de


processamento de imagens, modelagem de terreno, álgebra de mapas
e consulta a bancos de dados geográficos. Possui interface com
SpaceStat e suas funções de geoestatística utilizam a GSLIB.
Autores Equipe da Divisão de Processamento de Imagens do INPE
Disponibilidade Software livre em <www.dpi.inpe.br/spring>
Funções de Análise Exploratória: estatísticas descritivas, cálculo de variograma (2D
Análise Espacial e 3D), índice I de Moran (global e local), mapa de Moran, índice C de
Geary, com testes de hipóteses sobre autocorrelação espacial.
Detecção de conglomerados: função K de Ripley, vizinho mais próximo
e índices locais de Moran.

Estimador de densidade: “kernel estimator”.

Estimação: krigeagem simples e ordinária, krigeagem por indicação,


simulação seqüencial (gaussiana e por indicação), com suporte a
variáveis contínuas ou categóricas.
Aplicabilidade Análise de eventos (cap 2), geoestatística Linear (cap 3) e por
Indicação (cap 4), análise de áreas (cap 5).

=
TABELA 1-7
ArcGIS Geostatistical Analyst=

Descrição Extensão do ArcGIS (software de geoprocessamento de propósito


geral)
Autores Konstantin Krivoruchko e equipe da ESRI
Disponibilidade Comercial em <www.esri.com>
Funções de Análise Exploratória: estatísticas descritivas, cálculo de variograma (2D
Análise Espacial e 3D), análise de tendências

Estimação: krigeagem simples e ordinária, krigeagem por indicação,


co-krigagem e krigeagem disjuntiva
Aplicabilidade Geoestatística Linear (cap 3) e por Indicação (cap 4)

=
=
2 ANÁLISE ESPACIAL DE EVENTOS

Gilberto Câmara
Marilia Sá Carvalho

2.1 INTRODUÇÃO

Neste capítulo serão estudados os fenômenos expressos através de ocorrências


identificadas como pontos localizados no espaço, denominados processos pontuais.
São exemplos: localização de crimes, ocorrências de doenças, e localização de
espécies vegetais. O objetivo destas análises é estudar a distribuição espacial destes
pontos, testando hipóteses sobre o padrão observado: se é aleatório, se apresenta-
se em aglomerados ou se os pontos estão regularmente distribuídos. O objeto de
interesse é a própria localização espacial dos eventos em estudo.
O tipo de dado nestes estudos consiste em uma série de coordenadas de pontos
(p1, p2, ...) dos eventos de interesse dentro da área de estudo. O termo evento
refere-se a qualquer tipo de fenômeno localizável no espaço que, dentro de nossa
escala de investigação, possa estar associado a uma representação pontual.
Exemplos incluem:

• Epidemiologia: residência de casos de doenças

• Sociologia: local de ocorrência de ofensas criminais

• Demografia: localização de cidades

• Biologia: localização de espécies vegetais de interesse


Para ilustrar estes conceitos, considere a figura 2.1, que apresenta a distribuição
de 299 óbitos de menores de um ano, registrados no ano de 1998, de crianças
nascidas no mesmo ano na cidade de Porto Alegre, Rio Grande do Sul, divididos
em neonatais (menores de 28 dias de nascidos) e posneonatais (entre 28 dias e um
ano). A análise de padrões neste tipo de dado pode ser utilizada como uma forma
de identificação de possíveis áreas com maior concentração de mortes infantis, de
comparação entre os óbitos nos dois grupos de idade, e de identificação de fatores
de risco associados a esta ocorrência.
Os dados de distribuições pontuais têm as seguintes características:

• A área dos eventos não é uma medida válida apesar de em muitos casos
ocuparem espaço. Mesmo na análise do padrão de distribuição de cidades estas
são consideradas como um ponto no espaço do estudo.
• Os pontos em geral não estão associados a valores, mas apenas à ocorrência
dos eventos considerados.

• Em alguns estudos os pontos podem estar associados a atributos de


identificação, como no exemplo acima, em óbitos neonatais e posneonatais.
Quando este atributo é elemento do estudo, através da comparação da
distribuição espacial destes atributos, denomina-se processo pontual marcado.

Figura 2-1 - Distribuição espacial de mortalidade infantil – neonatal e posneonatal


- em Porto Alegre em 1998.

Nosso interesse primário ao analisar padrões de distribuição de pontos é


determinar se os eventos observados exibem algum padrão sistemático, em
oposição à uma distribuição aleatória. Busca-se detectar a existência de padrão de
conglomerados espaciais (cluster), através da constatação de um número acima do
esperado de casos excessivamente próximos, considerando uma distribuição
estocástica, usualmente um processo de Poisson. Se um padrão de eventos pontuais
apresentar desvios significativos do comportamento esperado para uma
distribuição de Poisson, isto indica a existência de uma distribuição espacial
diferente da completa aleatoriedade, que merece ser objeto de maior análise.

Análise Espacial de Dados Geográficos 2-2


2.2 CARACTERIZAÇÃO DE DISTRIBUIÇÕES DE PONTOS

Numa visão estatística, processos pontuais são definidos como um conjunto de


pontos irregularmente distribuídos em um terreno, cuja localização foi gerada por
um mecanismo estocástico. Para sua caracterização, este processo estocástico pode
ser descrito em termos dos efeitos de primeira ordem e efeitos de segunda ordem.
Os efeitos de primeira ordem, considerados globais ou de larga escala,
correspondem a variações no valor médio do processo no espaço. Neste caso,
estamos interessados na intensidade do processo, isto é, no número de eventos por
unidade de área. Efeitos de segunda ordem, denominados locais ou de pequena
escala, representam a dependência espacial no processo, proveniente da estrutura
de correlação espacial. Para medir a dependência espacial, procuramos estimar o
relacionamento entre pares de eventos (por unidade de área) no espaço, o que
corresponde a uma aproximação do cálculo da covariância entre as variáveis
aleatórias que representam cada evento1.
Considera-se um conjunto de pontos (u1 , u 2 ,........) numa determinada região A
onde ocorreram eventos. O processo pontual é modelado considerando subregiões
S em A através de sua esperança E [N (S )] e a covariância C N (Si ), N S j , onde [ ( )]
N (S ) denota o número de eventos em S. Sendo o objetivo da análise estimar as
localizações prováveis de ocorrência de determinados eventos, essas estatísticas
devem ser inferidas considerando o valor limite da quantidade de eventos por área.
Este valor limite corresponde à esperança de N (S ) para uma pequena região
du em torno do ponto u , quando essa tende a zero. Essa esperança é denominada
intensidade (propriedade de primeira ordem), sendo definida como
 E [N (du )]
λ (u ) = lim  , (2.1)
du →0  du 

Propriedades de segunda ordem podem ser definidas da mesma forma,


( )
considerando a intensidade conjunta λ ui , u j entre duas regiões infinitesimais | du |
i

e du j que contém os pontos u i e u j .

λ (d (ui ), d (u j )) =
[ ( )]
 C N (dui ), N du j
(2.2)
lim
du i , du j → 0 
 
 dui , du j 

Quando o processo é estacionário, λ (u ) é uma constante, ou λ (u ) = λ ; se


( )
também é isotrópico, λ u i , u j se reduz à λ( h ) , sendo h a distância entre os dois
pontos. Quando o processo é não estacionário, ou seja, a intensidade média varia

1
Vale relembrar a discussão do seção 1, onde caracterizamos os eventos no espaço por um processo
estocástico, onde cada ocorrência é uma realização de uma variável aleatória distinta.

Análise Espacial de Dados Geográficos 2-3


( )
na região A, a modelagem da estrutura de dependência λ ui , u j deve incorporar a
variação de λ(u ) . A maior parte das técnicas de análise de distribuição de pontos
supõe, explícita ou implicitamente, um comportamento estacionário e isotrópico
do processo aleatório subjacente aos eventos analisados.
No exemplo acima da mortalidade infantil, a ocorrência dos óbitos está
condicionada pela distribuição dos nascimentos. Além disso, características
individuais da criança, tais como prematuridade e peso, são importantes
condicionantes do óbito. É possível, entretanto, modelar estes eventos e detectar
áreas de sobre-risco, considerando simultaneamente o padrão de distribuição dos
nascimentos e óbitos, e verificando a variação da intensidade do evento na região e
a estrutura de correlação local.
A análise estatística dos padrões de distribuições de pontos requer um modelo
teórico de referência, base para o desenvolvimento de métodos formais que checam
a significância dos resultados exploratórios. O modelo teórico mais simples (e
bastante aplicado na prática) é conhecido como aleatoriedade espacial completa
(“complete spatial randomness - CSR”). Este modelo divide a região de estudo A
em subáreas Si e modela a distribuição de eventos pontuais como um processo
aleatório
{Z i (ui ), ui ε S i : i = 1,..., n} (2.3)

Neste caso, consideramos Zi(ui) como o número de eventos que ocorrem na


sub-área Si. No modelo CSR, consideramos que as ocorrências em cada sub-área
são não-correlacionadas e homogêneas, e estão associadas à mesma distribuição de
probabilidade de Poisson. Numa visão intuitiva, pode-se considerar que a posição
dos eventos é independente e de que os eventos tem igual probabilidade de
ocorrência em toda a região A.
Esta formulação nos permite estabelecer uma base de comparação entre uma
distribuição completamente aleatória (que seria gerada por um processo de
Poisson) e os dados coletados em campo. O procedimento mais usual para estimar
a probabilidade associada ao padrão encontrado será produzir uma simulação do
processo aleatório na região de estudo. Dado um número fixo de eventos medidos
em campo (denotado por n), determinamos o retângulo envolvente da região A
(seja {(x,y) : x1 ≤ x ≤ x2, y1 ≤ y ≤ y2} ). Os eventos são gerados a partir de abscissas
x, obtidas de uma distribuição uniforme em (x1,x2) e de ordenadas y, obtidas de
uma distribuição uniforme em (y1,y2). Pontos que caem fora da região são
rejeitados. Este processo é repetido até que n eventos tenham sido obtidos na
região.
Podemos gerar um conjunto de simulações, para que possamos obter uma
base de comparação entre o comportamento de um processo aleatório e a
distribuição dos eventos medidos. Os conceitos de CSR são utilizados para

Análise Espacial de Dados Geográficos 2-4


caracterizar os efeitos de segunda ordem em distribuição de pontos, utilizando os
métodos do vizinho mais próximo e da função K, descritos a seguir. São também
utilizados para avaliação em vários métodos de detecção de aglomerados (clusters).

2.3 ESTIMADOR DE INTENSIDADE ("KERNEL ESTIMATION")

Uma alternativa simples para analisar o comportamento de padrões de pontos


é a estimar a intensidade pontual do processo em toda a região de estudo. Para
isto, pode-se ajustar uma função bi-dimensional sobre os eventos considerados,
compondo uma superfície cujo valor será proporcional à intensidade de amostras
por unidade de área. Esta função realiza uma contagem de todos os pontos dentro
de uma região de influência, ponderando-os pela distância de cada um à
localização de interesse, como mostrado na Figura 2-2.

Kernel k()

Largura

Figura 2-2 - Estimador de intensidade de distribuição de pontos.

A partir dos conceitos apresentados, suponha e u1,...,un são localizações de n


eventos observados em uma região A e que u represente uma localização genérica
cujo valor queremos estimar. O estimador de intensidade é computado a partir dos
m eventos {ui,...ui+m-1} contidos num raio de tamanho τ em torno de u e da
distância d entre a posição e a i-ésima amostra, a partir de funções cuja forma geral
é:
n
1 d (ui , u )
λˆτ (u ) =
τ 2 ∑ k( τ
) , d (ui , u ) ≤ τ (2.4)
i =1

Este estimador é chamado kernel estimator e seus parâmetros básicos são: (a)
um raio de influência (τ ≥ 0) que define a vizinhança do ponto a ser interpolado e
controla o "alisamento" da superfície gerada; (b) uma função de estimação com
propriedades de suavização do fenômeno. O raio de influência define a área
centrada no ponto de estimação u que indica quantos eventos ui contribuem para a
estimativa da função intensidade λ. Um raio muito pequeno irá gerar uma
superfície muito descontínua; se for grande demais, a superfície poderá ficar muito
amaciada. No caso da função de interpolação k(), é comum usar funções de terceira
ou quarta ordem, como

Análise Espacial de Dados Geográficos 2-5


3
k ( h) = (1 − h 2 ) (2.5)
π
ou o kernel gaussiano

1  h2 
k ( h) = exp  − 2  (2.6)
2πτ  2τ 
 
Nestes estimadores, h representa a distância entre a localização em que
desejamos calcular a função e o evento observado. Com o uso desta função de
quarta ordem (equação 2.5), o estimador de intensidade pode ser expresso como:
2
3  h2 
λˆτ (u ) = ∑ πτ 2 1 − τ i2  (2.7)
hi ≤τ  
O estimador de intensidade é muito útil para nos fornecer uma visão geral da
distribuição de primeira ordem dos eventos. Trata-se de um indicador de fácil uso
e interpretação. A figura 2.3 ilustra a aplicação do estimador de intensidade para o
caso de mortalidade por causas externas em Porto Alegre, com os dados de 1996.
A localização dos homicídios (vermelho), acidentes de trânsito (amarelo) e
suicídios (azul) esta mostrada na figura 2.3 à esquerda e o estimador de intensidade
dos homicídios é apresentado na figura 2.3. A superfície interpolada mostra um
padrão de distribuição de pontos com uma forte concentração no centro da cidade
e decrescendo em direção aos bairros mais afastados.

Figura 2.3: Distribuição de casos de mortalidade por causas externas em Porto Alegre em 1996 e
estimador de intensidade.

Análise Espacial de Dados Geográficos 2-6


2.4 ESTIMADORES DE DEPENDÊNCIA ESPACIAL

Para a estimação de propriedades de segunda ordem do processo pontual, as


técnicas mais utilizadas são o vizinho mais próximo e a função K, descritos a seguir.

Método do Vizinho Mais Próximo

O método do vizinho mais próximo estima a função de distribuição


cumulativa Gˆ ( h) baseado nas distâncias h entre eventos em uma região de análise.
Esta função de distribuição pode ser estimada empiricamente da seguinte forma:
#( d (ui , u j ) ≤ h)
Gˆ ( h) = (2.8)
n
onde o valor normalizado acumulado para uma distância h corresponde à soma
dos vizinhos mais próximos de cada evento cuja distância é menor ou igual a h,
dividido pelo número de eventos na região.
A plotagem dos resultados desta função de distribuição cumulativa
empírica Gˆ ( h) pode ser usada como um método exploratório para se verificar se
existe evidência de interação entre os eventos. Se esta plotagem apresentar um
crescimento rápido para pequenos valores de distância, esta situação aponta para
interação entre os eventos caracterizando agrupamentos nestas escalas. Se esta
plotagem apresentar valores pequenos no seu início, e só crescer rapidamente para
valores maiores de distância, esta situação aponta para uma distribuição mais
regular. A Figura 2-4 mostra a função Gˆ ( h) para os dados de mortalidade infantil
de Porto Alegre (figura 2.1), com distância mínima de 0 km e distância máxima de
1 km. Verifica-se que a curva mostra um crescimento acentuado para distâncias até
500 m para depois se estabilizar, o que caracteriza agrupamento nesta faixa de
distâncias.

Figura 2-4 – Função vizinho-mais-próximo para mortalidade infantil neonatal em Porto Alegre.
Análise Espacial de Dados Geográficos 2-7
A análise de vizinhança pode ser usada como método formal para se comparar
estatísticamente a distribuição dos eventos observados com o que se esperaria na
hipótese da aleatoriedade espacial completa (CSR). Esta metodologia consiste em
se criar envelopes de simulação para a distribuição CSR, a fim de se acessar a
significância dos desvios. Na hipótese de CSR, a função de distribuição G(w) seria
dada por um processo de Poisson

G ( h) = 1 − e − λπh h ≥ 0
2
(2.9)

A estimação simulada para a distribuição G(w) assumindo-se CSR é calculada


como
k
∑ Gˆ i (h)
G ( h) = i
(2.10)
k
onde Gˆ i ( h) , i=1,2..,k são funções de distribuição empíricas, estimadas a partir de
k simulações independentes dos n eventos, na hipótese de CSR (n eventos
independentes e uniformente distribuídos). Para verificar a condição de
aleatoriedade, calculamos ainda os envelopes de simulação superior e inferior,
definidos como se segue:

U (h) = max{ Gˆ i (h)}, i = 1,..., k


(2.11)
L( h) = min { Gˆ i (h)}, i = 1,..., k

A plotagem da distribuição estimada Gˆ ( h) versus a distribuição simulada


G (h) , com a adição dos envelopes inferior e superior, permite medir a
significância dos desvios relativo a aleatoriedade. Se a condição CSR for válida
para os dados observados, o gráfico da curva de Gˆ ( h) versus G (h) deve ser
praticamente linear com um ângulo de 45 graus. Se o dado apresenta tendências
para agrupamentos, os traçados no gráfico estarão acima da linha de 45 graus, ao
passo que para padrões de regularidade os traçados ficarão abaixo da linha de 45
graus.
A Figura 2-5 mostra um exemplo de gráfico mostrando o posicionamento da
distribuição e dos envelopes com relação a linha de 45 graus, para os dados
referentes mortalidade infantil neonatal em Porto Alegre. Neste caso percebe-se a
posição dos envelopes e da distribuição acima da linha de 45 graus, o que
caracteriza agrupamento para as distâncias em análise.

Análise Espacial de Dados Geográficos 2-8


Figura 2-5 – Gráfico de Gˆ ( h) (estimado) versus G (h) (CSR), com envelopes superior e inferior,
para os dados de mortalidade neonatal em Porto Alegre
Embora o método do vizinho mais próximo forneça uma indicação inicial da
distribuição espacial, ele considera apenas escalas pequenas. Para se ter informação
mais efetiva para o padrão espacial em escalas maiores, o melhor método a ser
utilizado é o da função K.
Função K
A função K, também denominada medida de momento de segunda ordem
reduzido, é definida para o processo univariado como:
λK(h) = E(# eventos contidos a uma distância h de um evento arbitrário) (2.12)
onde # está associado ao número de eventos, E() é o operador de estimativa, e λ é
a intensidade ou número médio de eventos por unidade de área, assumida
constante na região. Uma estimativa de K(h) é:
A n n I h ( d ij )
Kˆ (h) = 2
n
∑∑ wij
(2.13)
i j ,i ≠ j

onde A é a área da região, n é o número de eventos observados, Ih(dij) é uma função


indicatriz cujo valor é 1 se (dij) <= h e 0 em caso contrário, e wij é a proporcão da
circunferência do círculo centrado no evento i que está dentro da região (correção
devido ao efeito de borda).
A função K é usada como ferramenta exploratória na comparação entre
estimativa empírica — Kˆ (h) — e a resultante de um processo de padrão de pontos
2
espacial aleatório — K (h) . Para um processo aleatório K(h) seria πh . Portanto,
uma forma de comparar a estimativa K de um conjunto de dados observados com
2
πh seria plotar a função Lˆ (h) definida como:

Análise Espacial de Dados Geográficos 2-9


Kˆ (h)
Lˆ (h) = −h (2.14)
π
O gráfico de Lˆ (h) em função da distância h indica atração espacial entre
eventos ou agrupamentos para valores positivos, sendo o agrupamento mais forte
em picos positivos, e indica repulsão espacial ou regularidade em pontos de valores
negativos. Uma abordagem similar à do vizinho mais próximo pode ser feita para
se estimar a significância dos desvios da distribuição Lˆ (h) em relação à condição
de aleatoriedade (CSR). Os envelopes inferior e superior são construídos a partir
de k simulações independentes de n eventos na região A. Na análise do gráfico com
a distribuição e os envelopes, picos positivos na função estimada Lˆ (h) que estão
acima do envelope superior evidenciam ocorrência de agrupamento na escala
considerada, portanto, se todos os valores da função Lˆ (h) estiverem acima do
envelope superior e com valores positivos, teremos agrupamentos em todas as
escalas. Depressões negativas na função estimada Lˆ (h) que estiverem abaixo do
envelope inferior, evidenciam regularidade nessa escala, portanto, se todos os
valores de Lˆ (h) estiverem abaixo do envelope inferior e com valores negativos,
tem-se regularidade em todas as escalas.
A Figura 2-6 mostra o gráfico da função Lˆ (h) e dos envelopes de simulação
para o dado de Porto Alegre (Figura 2-1). Verifica-se valores positivos para a
função L, estando os mesmos acima dos envelopes, o que caracteriza agrupamento
em todas as escalas de distância.

Figura 2-6 – Função K com simulação para os dados de mortalidade neonatal em Porto Alegre.

Análise Espacial de Dados Geográficos 2-10


2.5 PROCESSO PONTUAL MARCADO

Um das situações mais importantes na análise espacial de pontos é a


possibilidade de comparação entre dois processos espaciais. Tipicamente, um dos
processos representa os casos em estudo, e o outro os casos de um processo
pontual que representa um conjunto de casos de controle. Por exemplo, num
estudo realizado por Peter Diggle na Inglaterra sobre câncer de laringe, foi
utilizado dados de câncer de pulmão como indicadores da distribuição espacial da
população. Esta situação pode ser generalizada supondo dois processos pontuais, o
primeiro cujos casos localizam-se em (u1,u2,...,u1) e o segundo cujos casos estão nos
pontos (un+1,un+2,...,un+m). Cada tipo de evento pode ser modelado como uma
distribuição de Poisson, I e II, com intensidades λ1(u) e λ2(u). Define-se o risco na
localidade u como uma função da razão entre λ1 e λ2. O objetivo da análise é
investigar a variação espacial desta razão na região.
Se estimarmos a intensidade de cada processo através de uma função kernel, a
razão entre as duas funções será a intensidade do risco. E cada uma das funções
estudadas anteriormente pode ser adaptada para verificar a relação entre os pontos
do processo I com os pontos do processo II. Por exemplo, visando estudar a
dispersão de duas espécies vegetais pode-se verificar a relação de cada ponto com o
vizinho mais próximo da outra espécie.

2.6 ESTUDOS CASO-CONTROLE

Considere-se um tipo de estudo onde temos dois tipos de eventos, por


exemplo recém-natos que morrem antes de completar um ano e os que sobrevivem
a esta idade. Sendo esta variável do tipo binomial a resposta do estudo, dependente
de diversas covariáveis tais como prematuridade, existência de doenças na
gravidez, escolaridade da mãe, e incluindo sua localização no espaço, pode-se
modelar o processo utilizando o método clássico de regressão logística, próprio
para este tipo de distribuição. O que particulariza o contexto espacial é a forma de
se incluir a localização dos pontos no modelo. Diversas formas de estimar este
risco em cada localidade são possíveis, entre as quais utilizar o mesmo kernel da
razão como um dos termos da regressão, que toma uma forma semi-paramétrica
abaixo:
logit( yi ) = βxi + g( si ) , (2.15)
onde:
• yi é a variável resposta, e tem a forma sim/não, zero/um (óbitos/nascimentos),
• a função de ligação da regressão é o logit, como usual para dados binomiais,
• xi é o vetor de covariáveis,

Análise Espacial de Dados Geográficos 2-11


• β é o vetor de parâmetros estimado pelo modelo, que no caso da regressão
logística é a razão de chances (odds ratio) relacionada a cada covariável,
• g(si) é a razão do estimador de intensidade kernel de casos e controles.
O ganho deste tipo de modelagem é possibilitar a estimativa da variação
espacial do risco, controlando pelos fatores conhecidos de variação de risco. Os
procedimentos de estimação dos parâmetros destes modelos baseia-se em métodos
iterativos usuais de modelos aditivos generalizados, onde se estima os parâmetros
da regressão, e sobre os resíduos estima-se a função kernel, e assim sucessivamente
até que as estimativas não mais se alterem. O método permite identificar áreas de
sobre ou sub risco significativamente diferente da média global. A largura de banda
a ser utilizada é importante, e pode ser definida através de métodos automáticos ou
selecionada pelo pesquisdor visando ajustar a uma conhecida estrutura espacial. No
estudo da mortalidade infantil em Porto Alegre (figura 2-1) os dados foram
analisados segundo esta proposta, incluindo como fatores de risco individuais: (a)
peso ao nascer, (b) semanas gestacionais, (c) sexo da criança, (d) (e) idade da mãe,
(f) grau de instrução da mãe, (g) tipo de gravidez e (h) tipo de parto, numa
regressão logística cuja expressão é:
 p (s, x )  β + β sexo + β peso +β idade +β inst +β ges +β grav +β parto + g(s).
log  = 0 1 2 3 4 5 6 7
1 − p ( s, x ) 
(2.16)
A interpretação dos resultados é razoavelmente direta: os parâmetros β indicam a
razão de chances estimada pelo modelo (Quadro 2-1), da forma usual da regressão
logística, e no mapa são apresentadas as áreas onde a probabilidade de obter o
valor do kernel estimado está “significativamente” diferente da intensidade média
do processo. O algoritmo para estimar a largura de banda ótima para os dados
utiliza validação cruzada de mínimos ponderados para o passo de regressão não-
paramétrica. No passo de suavizamento (Eq. 2.15) escolhe-se o valor de h que
minimiza:

∑ wi {zi − ĝ −1( si )}
n 2

CV ( h ) = i =1
, (2.17)
n
onde ĝ −1 ( s i ) é a estimativa de g( s i ) construída com o valor de banda h usando
todos os dados com exceção do par (si, zi). Testa-se diferentes valores de h, sendo
escolhido o que minimiza o somatório.

Análise Espacial de Dados Geográficos 2-12


Quadro 1: Estimativas dos efeitos de covariáveis utilizando o valor da banda
obtido por validação cruzada

Fator Estimativa Erro padrão P-valor

Intercepto 4,0717 0,9487 0,0000


Sexo -0,3674 0,2713 0,1761
Peso ao nascer -0,0018 0,0002 0,0000
Idade da mãe -0,0131 0,0197 0,5059
Instrução da mãe 0,0718 0,2753 0,7942
Duração da gestação 1,1685 0,3737 0,0018
Tipo de gravidez -0,2006 0,6558 0,7598
Tipo de parto -0,5320 0,2838 0,0613

A figura 2-7 mostra os mapas de risco para a mortalidade infantil após, incluídas as
co-variáveis individuais da criança e da mãe. É interessante observar que no centro
da cidade de Porto Alegre existe uma região onde o risco da mortalidade é
significativamente menor e outra onde é maior. Quanto às variáveis individuais,
somente foram significativas o peso ao nascer, que é reconhecidamente a variável
mais associada à mortalidade neo-natal, e a duração da gestação, indicativo de
prematuridade. Além de mapeamento do risco, é importante avaliar se a superfície
estimada varia significativamente na região, ou seja, se existem evidências
estatísticas suficientes para rejeitar a hipótese nula de risco constante na região,
tendo-se controlado os fatores individuais de risco. Em termos do modelo, isso
equivale ao teste da hipótese H0: g(s)=0. Também é de interesse a construção de
contornos de tolerância que auxiliam na identificação de áreas onde o risco é
significativamente superior (ou inferior) à média global. Ou seja, reconhecendo o
papel de um dado fator como um preditor importante da mortalidade infantil e
controlando-o, deseja-se identificar áreas onde o risco é significativamente mais
elevado, buscando orientar a intervenção.

Análise Espacial de Dados Geográficos 2-13


Figura 2-7. Mapas de risco para a mortalidade infantil, controlando para fatores individuais, com a
largura de banda estimada por validação cruzada, Porto Alegre, 1998
O teste global do risco e a identificação de áreas de baixo e alto risco podem
ser feitos utilizando o método de simulação Monte Carlo, seguindo os passos do
algoritmo abaixo:
1. Ajustando-se um modelo de regressão logística convencional, para cada evento
– caso ou controle – estima-se a probabilidade ajustada p̂i . Ou seja, dadas as
covariáveis daquele registro, qual é a probabilidade ser um caso.
2. Fixando-se as localizações de cada ponto, amostra-se m dos n indivíduos (sem
reposição) com probabilidade proporcional a p̂i e estes são rotulados como
casos e os n-m restantes como controles.
3. Calcula-se uma nova estimativa de g(s), ĝ 1 ( s ) , a estimativa centralizada em
~ ( s ) = ĝ ( s ) − g , onde g = n −1 ∑n ĝ ( s ) e a estatística
torno da média g 1 1 1 1 1 i
i =1
n
( )
t 1 = n −1 ∑ g~1 ( si ) .
i =1
2

4. Repete-se os passos 1 e 2 m vezes.


5. Constrói-se uma superfície de p-valores que para cada s fornece a proporção
dos valores de g~ ( s ) , j=1,…,m, menores do que a estimativa original,
j
~ (s).
digamos g 0

Análise Espacial de Dados Geográficos 2-14


6. Adiciona-se os contornos de 0.05 e 0.95 da superfície de p-valores ao mapa de
g~0 ( s ) como contornos de 90% de confiança para indicar áreas de alto/baixo
risco.
7. Para o teste de hipótese, define-se k o número de tj>t0 (obtida a partir de
g~0 ( s ) ) e o nível de significância correspondente por p = ( k + 1 ) ( m + 1 ) .

2.7 REFERÊNCIAS

A referência das técnicas mais básicas apresentadas neste capítulo é o livro de


Trevor Bailey, “Spatial Data Analysis by Example” (Bailey and Gattrel, 1995). As
técnicas de caso-controle espacial foram desenvolvidas por Peter Diggle e
colaboradores, e a maior parte das rotinas e algoritmos está disponível na página
da do Departamento de Matemática e Estatística da Universidade de Lancaster
(http://www.maths.lancs.ac.uk). O relatório técnico “An S+ library on risk
estimation and cluster detection in case-control studies”, de Jarner, M. F. and
Diggle, P. J., mostra as funções desenvolvidas e como usá-las. Está disponível em
http://www.maths.lancs.ac.uk/dept/stats/techabstracts02.html.
Os modelos aditivos generalizados, que servem de base para a extensão
espacial podem ser melhor estudados em HASTIE, T. J.; TIBSHIRANI, R. J.,
1990, Generalized Additive Models. London:Chapman and Hall. Um excelente
livro para estudar modelos de regressão é o HOSMER, D. W.; LEMESHOW, S.,
1989, Applied Logistic Regression. New York:Wiley.
Os trabalho sobre mortalidade infantil em Porto Alegre foi publicado no
número especial dos Cadernos de Saúde Pública sobre o tema de estatísticas
espaciais em saúde (volume 17(5), outubro-novembro 2001, 1251-1261),
disponível na Internet (www.scielo.br).

1. DIGGLE, P. J., 1992. Point process modelling in environmental epidemiology.


Relatório Técnico MA92/70, Lancaster: Department of Mathematics and
Statistics, Lancaster University.
2. KELSALL, J. E.; DIGGLE, P. J. , 1995b. Non-parametric estimation of spatial
variation in relative risk. Statistics in Medicine, 14:2335-2342.
3. KELSALL, J. E.; DIGGLE, P. J., 1998. Spatial variation in risk of disease: a
nonparametric binary regression approach. Applied Statistics, 47:559-573.

Análise Espacial de Dados Geográficos 2-15


3

ANÁLISE ESPACIAL DE SUPERFÍCIES

Eduardo Celso Gerbi Camargo


Suzana Druck Fucks
Gilberto Câmara

3.1 INTRODUÇÃO

No capítulo anterior, apresentamos técnicas de Análise Espacial para eventos


discretos, associados a ocorrências pontuais. Neste capítulo, apresentamos técnicas
para tratamento e análise de dados de superfícies. De uma forma geral, estes dados
estão disponíveis na forma de amostras pontuais, e para utilizá-los de forma efetiva
em um ambiente de Geoprocessamento, necessitamos de um procedimento de
interpolação, para gerar uma representação na forma de grade regular, como
ilustrado na Figura 3-1.
As amostras são valores representativos do fenômeno estudado, usualmente
obtidas a partir de levantamento de campo, e que apresentam consistência de
metodologia e unidade. Conforme explicado no capítulo 1, essas amostras podem
representam tanto variáveis naturais (como teor de argila no solo) como
socioeconômicas (como taxa de homicídios).

Figura 3-1 – Ilustração do processo de interpolação: amostras (cruzes) e aproximação da


superfície por uma grade regular (círculos).
Para gerar superfícies que aproximem o fenômeno estudado de forma realista, é
necessário modelar sua variabilidade espacial. Os modelos que objetivam gerar
superfícies a partir de procedimentos de interpolação, de forma geral, representam
a variável em estudo como uma combinação da variabilidade em larga e pequena
escala. Esse enfoque, entretanto, não é único. Assim, pode-se tomar três grandes
abordagens: Para tanto, pode-se tomar três grandes abordagens:
• Modelos determinísticos de efeitos locais: cada ponto da superfície é estimado
apenas a partir da interpolação das amostras mais próximas, utilizando funções
como inverso do quadrado da distância. A suposição implícita é que
predominam os efeitos puramente locais. Neste caso, não é feita qualquer
hipótese estatística sobre a variabilidade espacial. Estes interpoladores serão
apresentados na seção 3.2 deste capítulo.
• Modelos determinísticos de efeitos globais: a suposição implícita nesta classe de
interpoladores é que, para a caracterização do fenômeno em estudo, predomina
a variação em larga escala, e que a variabilidade local não é relevante. Este é
caso do interpoladores por superfícies de tendência, apresentados na seção 3.3
deste capítulo.
• Modelos estatísticos de efeitos locais e globais (krigagem): cada ponto da
superfície é estimada apenas a partir da interpolação das amostras mais
próximas, utilizando um estimador estatístico. Esses procedimentos requerem
que a variabilidade local e global sejam modelada através de modelos
apresentados como
p
Z (x ) = ∑ β j f j + ε (x )
j =1

p
Nesse caso E {Z ( x )} = ∑β j f j aonde β j é um conjunto de parâmetros
j =1

desconhecidos e f j um conjunto de funções básicas, em geral, polinomiais.


Esses estimadores apresentam propriedades de não ser tendenciosos e de
procurar minimizar os erros inferenciais. Eles podem ser estimados através de
procedimentos como a krigagem universal e as funções intrínsecas de ordem k
não abordadas nesse capítulo.
Neste capítulo, iremos dar ênfase ao uso de técnicas de krigagem ordinária, ou
seja a um caso particular desse modelo global em que p=1 e k=0 , aonde k
representa a ordem da função f j ,e β 1 igual a média local. A ênfase nesse
procedimento é devido às suas propriedades, sua grande importância na modelagem
de fenômenos naturais e também porque esse capitulo objetiva procedimentos que
priorizam a interpolação espacial (predição). A modelagem de tendências ou
variação em larga escala se faz necessária quando a etiologia de um fenômeno deve
ser estudada e aonde a estimação da tendência é importante na compreensão do
fenômeno. As técnicas da krigagem são discutidas a partir da seção 3.4. Para a
comparação entre os interpoladores, foram utilizados dados da EMBRAPA – Solos,
obtidos na Fazenda Canchim, em São Carlos - SP. Trata-se de amostragem de 85
observações georreferenciadas coletadas no horizonte Bw (camada do solo com
profundidade média de 1m), conforme ilustra a Figura 3-2. Dentre as variáveis
disponíveis, selecionou-se para estudo o teor de argila, cujas estatísticas básicas
amostrais são apresentadas na Tabela 3.1.

Figura 3-2- Disposição das amostras de teor de argila da Fazenda Canchim (EMBRAPA).

Tabela 3-1 - ESTATÍSTICAS DA AMOSTRA.


Número de observações 85
Média 33,035
Variância 288,034
Desvio Padrão 16,972
Coeficiente de variação 0,514
Coeficiente de assimetria 0,214
Coeficiente de curtose 2,344
Quartil Inferior 10
Mediana 33
Quartil superior 43

O histograma das amostas mostra que a distribuição do teor de argila é


levemente alongada à direita. Neste caso, a distribuição é dita ser positivamente
assimétrica, com coeficiente de assimetria de 0,214. Quanto ao grau de
achatamento, o coeficiente de curtose (2,344) indica que a distribuição é
ligeiramente platicúrtica. Dentre outros valores apresentados na Tabela 3-1, nota-se
que a média e a mediana, medidas que procuram caracterizar o centro da mesma
distribuição de freqüências, possuem valores próximos (33,035 e 33,0),
respectivamente. Assim sendo, a distribuição da variável em estudo, pode ser
considerada aproximadamente simétrica.

3.2 MODELOS DETERMINÍSTICOS LOCAIS

Uma alternativa simples para gerar uma superfície bidimensional a partir de


amostras pontuais é ajustar uma função bidimensional sobre os amostras
considerados, compondo uma superfície cujo valor será proporcional à local
intensidade de amostras. A formulação geral para este tipo de interpolação é:
n
∑ wij z j
j =1
zˆi = , (3.1)
n
∑ wij
j =1

onde: zi é o valor de cota de um ponto i qualquer da grade, zj é a cota de uma


amostra j vizinha do ponto i da grade e wij é um fator de ponderação. A Figura 3-3
ilustra o procedimento de estimação.

Figura 3-3 Ilustração do processo de interpolação por estimador local: (a) configuração original de
amostras; (b) grade regular superposta às amostras; (c) interpolação de um valor a partir dos
vizinhos; (d) grade regular resultante
Variações desse esquema básico são os interpoladores: (a) por vizinho mais
próximo; (b) por média simples; (c) por média ponderada; Nos três primeiros
casos, considera-se uma região em torno do ponto a ser interpolado como contendo
os pontos que influenciam na interpolação. A interpolação por vizinho mais
próximo é definida pela escolha de apenas uma amostra vizinha para cada ponto da
grade. Este interpolador deve ser usado quando se deseja manter os valores de cotas
das amostras na grade, sem gerar valores intermediários. A interpolação por média
simples considera o valor de cota z do elemento da grade igual a média aritmética
dos valores de cota das amostras vizinhas. Neste caso considera-se que o fator de
ponderação wij é igual a 1/n para qualquer amostra considerada. Na interpolação
por média ponderada o valor de cota de cada elemento da grade é definido pela
média ponderada dos valores de cota das amostras vizinhas. A ponderação mais
usada na prática é o inverso da distância euclidiana do ponto da grade à amostra
considerada ou seja:

wij = 1 d ijk , (3.2)

onde: k é o expoente da distância, geralmente igual a 1 ou 2 e; dij é o valor de


distância da amostra j ao ponto i da grade, expresso por:

dij = ( xi − x j ) 2 + ( yi − y j ) 2 (3.3)

Uma comparação visual entre os resultados desses interpoladores é mostrada na


Figura 3-4 para os dados do teor de argila da Fazenda Canchim. Os mapas ilustram
os defeitos típicos dessas funções simples: as funções de vizinho mais próximo e
média simples tendem a produzir superfícies com variações abruptas; no caso do
inverso do quadrado da distância, os máximos locais tendem a ser muito
acentuados, formando “picos” artificiais.
Figura 3-4 - Comparação entre interpoladores de média móvel, para o mesmo conjunto de
amostras. À direita, inverso do quadrado da distância; no centro, média simples; à esquerda,
vizinho mais próximo. Regiões mais claras representam alto valores e vice-versa.

Um refinamento desses estimadores é o uso de uma função de ponderação mais


complexa que a média simples ou o inverso do quadrado da distância. Esta classe de
estimadores é descrita na literatura como kernel estimators, ou estimadores de
densidade não-paramétricos. Estes estimadores generalizam a idéia de média móvel
local, ao supor que a densidade do fenômeno varia localmente de forma suave, sem
“picos” nem “descontinuidades”. Seu objetivo é produzir superfícies mais suaves,
que se espera mais representativas de fenômenos naturais e socioeconômicos. Estes
estimadores são do mesmo tipo que os discutidos no capítulo 2 para o caso de
eventos pontuais, agora generalizados para o caso de amostras.
Um kernel estimator é um estimador cujos parâmetros básicos são: (a) um raio
de influência que define a vizinhança do ponto a ser interpolado; (b) uma função de
estimação com propriedades “convenientes” de suavização do fenômeno. Para toda
posição zi cujo valor queremos estimar, o estimador de intensidade será computado
a partir dos valores das amostras {z1,...zn} contidos num raio de tamanho τ, e da
distância euclidiana dij entre a i-ésima posição e a j-ésima amostra (como expresso
na equação 3.3), a partir de funções do tipo
n d
∑ k( τij ) z j
j =1
zˆi = , dij ≤ τ (3.4)
n
∑ k( τ
dij
)
j =1

Esta fórmula é uma generalização da equação 3.1, na qual o cômputo dos pesos
wij foi substituído por uma função generalizada dependente da distância. Exemplos
destas funções incluem o kernel gaussiano
 d 2
exp  −
1 ij 
k ( x, y, τ ) = , (3.5)
2πτ  2τ 2 
 

ou o kernel de quarta ordem

3 d ij2 2
k ( x, y, τ ) = (1 − ) (3.6)
πτ 2 τ2
Para ilustrar esta classe de estimadores, foram geradas duas superfícies a partir
das mesmas amostras usadas para produzir os mapas da Figura 3-4. A partir de um
kernel de quarta ordem (equação 3.6), foram gerados dois mapas mostrados na
Figura 3-5, com raios de busca de 500 e 1500 metros. A comparação entre os
mapas mostra a grande importância de uma seleção apropriada do raio de busca no
uso de kernel estimators. No primeiro mapa predominam os efeitos locais, pelo uso
de um raio de busca reduzido; o segundo mapa evidencia melhor a distribuição do
fenômeno, pelo uso de um raio mais apropriado aos dados.
Em resumo, os kernel estimators são uma alternativa viável a métodos mais
sofisticados de interpolação, pois não requerem a parametrização da estrutura de
correlação espacial (como no caso da geoestatística). As superfícies interpoladas são
suaves e aproximam muitos fenômenos naturais e socioeconômicos. As
desvantagens destes estimadores são a forte dependência no raio de busca e a
excessiva suavização da superfície, que pode em alguns casos esconder variações
locais importantes.
Figura 3-5- Superfícies de teor de argila interpoladas por kernel de quarta ordem. À esquerda, raio
de busca de 500m; à direita, raio de busca de 1500m.

3.3 SUPERFÍCIES DE TENDÊNCIA

As superfícies de tendência são interpoladores determinísticos globais. A


superfície é aproximada por um ajuste polinomial aos dados, através de um
processo de regressão múltipla entre os valores do atributo e as localizações
geográficas. Essa função polinomial é então utilizada para estimar os valores dos
pontos em todas as localizações de uma grade regular que aproxima a superfície.
As superfícies de tendência buscam modelar a variação espacial em larga escala
através de uma regressão múltipla entre os valores de atributo e as localizações
geográficas. A saída é uma função polinomial na qual o valor do atributo é expresso
em função das coordenadas da superfície, expressas em duas ou três dimensões.
Exemplos incluem equações lineares do tipo:
z = α1 + α 2 x + α 3 y (3.7)

e equações quadráticas como:

w = α1 + α 2 x + α 3 y + α 4 xy + α 5 x 2 + α 6 y 2 (3.8)

A suposição implícita nos interpoladores por superfícies de tendência é que,


para a caracterização do fenômeno em estudo, predomina a variação em larga
escala, e que a variabilidade local não é relevante. Neste modelo, a função de
autocorrelação continua decaindo mesmo após ultrapassar a distância onde há
influências locais; a covariância não se estabiliza com a distância e assim o
fenômeno analisado é não-estacionário.
Para o caso dos dados de teor de argila da Fazenda Canchim (acima descritos),
foi realizada uma análise de tendência usando uma regressão linear. Os ajustes
indicaram um coeficiente de determinação (R2 ajustado) de apenas 17,3%, o que
indica não haver efeitos espaciais significativos de larga escala. Deste modo, pode-se
esperar que estes dados sejam modeláveis por interpoladores locais, sejam
determinísticos (seção 3.2) ou estocásticos (seção 3.4 e seguintes).
Um exemplo típico de superfícies de tendência é o uso de dados de longitude,
latitude e altitude para estimar a distribuição de temperatura. Neste caso, o objetivo
foi estimar a distribuição de temperatura para o estado de Santa Catarina, para a
época do plantio de soja, em intervalos de 10 dias (decêndios). Partindo da época
recomendada para semeadura e do ciclo de diferentes cultivares de soja,
determinou-se um período de análise compreendido entre 11/10 e 20/05 (22
decêndios), permitindo que cultivares com ciclos diferentes, semeadas dentro da
época recomendada, tivessem todo o seu ciclo avaliado neste estudo. Foram
coletados dados de temperatura média diária e precipitação diária de 27 estações
meteorológicas monitoradas pela Empresa de Pesquisa Agropecuária e Extensão
Rural de Santa Catarina S. A. – Epagri, com uma série histórica de
aproximadamente cinco anos, mostrados na Figura 3-6.

Figura 3-6– Distribuição espacial das estações monitoradas pela Epagri.


A partir dos dados diários, foi calculada a média decendial. Esta média das 27
estações foi utilizada no cálculo de superfícies de tendência a partir de uma equação
do tipo:
z ( x, y , h) = α1x+ α 2 y + α 3h + α 4 (3.9)

onde z é a temperatura calculada a partir da longitude (x), latitude (y) e


altitude (h). Para o primeiro decêndio (11/10 a 20/10), os resultados estão
mostrados na Tabela 3.1. Na análise dos coeficientes da regressão, mostrada na
Tabela 3.2, a relação entre as variáveis independentes com a variável dependente
(temperatura média decendial) foi verificada, inicialmente, pelo teste “F” e, depois,
pelo teste “t” de Student. Esta análise indicou todos os coeficientes como
significativos. A normalidade dos resíduos foi avaliada pelo teste de Keifer-Salmon,
e aceita a hipótese.
Tabela 3-2 - Coeficientes para Estimativa de Temperatura em Santa Catarina
(Decêndio de 11/10 a 20/10).=

Valor Teste F Teste T p-valor Comentários


Intercepto 9,475 7,169 Significativo
Latitude -0,447 0,169 -2,637 (idem)
Longitude 0,466 0,085 5,488 (idem)
Altitude -0,005 0,000 -16,162 (idem)
2
R ajustado 0,909

A grande vantagem das superfícies de tendência é sua simplicidade e facilidade


de cálculo. No entanto, a suposição implícita do modelo, em negligenciar a
variabilidade local, não é realista para a maior parte dos dados naturais.
Adicionalmente, os parâmetros estimados são muito sensíveis a valores extremos
(outliers). Apesar destes problemas, as superfícies de tendência são úteis para
remover efeitos de primeira ordem, quando a média varia de forma consistente no
espaço. Outros usos importantes são a análise dos resíduos de estimação; tais
resíduos também são bastante informativos, pois mostram a existência de sub-
regiões que apresentam diferenças significativas na tendência geral.
No exemplo apresentado, trata-se de uma situação favorável, em que, em
função do comportamento da temperatura, da época do ano e das características do
estado de Santa Catarina, apenas a variação em larga escala foi capaz de produzir
estimativas acuradas. Esta situação não é a mais usual. Na prática, na maior parte
das vezes as variações locais não podem ser ignoradas. Neste caso, será preciso
modelar o comportamento da variável e para isto, utiliza-se a abordagem
geoestatística, descrita a seguir.
3.4 MODELOS ESTATÍSTICOS DE EFEITOS LOCAIS E GLOBAIS: KRIGAGEM

3.1.1 FUNDAMENTAÇÃO TEÓRICA

A krigagem compreende um conjunto de técnicas de estimação e predição de


superfícies baseada na modelagem da estrutura de correlação espacial. A hipótese
implícita no procedimento geoestatístico é que o processo estudado é estacionário
(veja-se a definição de estacionariedade no capítulo 1 do livro). Os passos num
estudo empregando técnicas de krigagem incluem:
(a) análise exploratória dos dados;
(b) análise estrutural (modelagem da estrutura de correlação espacial);
(c) interpolação estatística da superfície.
O procedimento de interpolação é chamado de krigagem em honra a Daniel
Krige, o pioneiro em introduzir o uso de médias móveis para evitar a
superestimação sistemática de reservas em mineração. O que diferencia a krigagem
de outros métodos de interpolação é a estimação de uma matriz de covariância
espacial que determina os pesos atribuídos às diferentes amostras, o tratamento da
redundância dos dados, a vizinhança a ser considerada no procedimento inferencial
e o erro associado ao valor estimado. Além disso, a krigagem também fornece
estimadores com propriedades de não tendenciosidade e eficiência.
A estrutura teórica da krigagem está baseada no conceito de variável
regionalizada, desenvolvida por Georges Matheron. Uma variável regionalizada é
uma variável distribuída no espaço (ou tempo) cujos valores são considerados como
realizações de uma função aleatória (ou processo aleatório, ou campo aleatório, ou
processo estocástico). Esta teoria permite incluir hipóteses estatísticas em processos
espaciais locais. A variação espacial de uma variável regionalizada pode ser expressa
pela soma de três componentes: a) uma componente estrutural, associada a um
valor médio constante ou a uma tendência constante; b) uma componente aleatória,
espacialmente correlacionada; e c) um ruído aleatório ou erro residual. Se o vetor x
representa uma posição em uma, duas ou três dimensões, então o valor da função
aleatória Z, em x, é dada por:
Z ( x ) =µ( x ) + ε ' ( x ) + ε ' ' (3.10)

onde:
• µ(x) é uma função determinística que descreve a componente estrutural de Z
em x;
• ε′(x)é um termo estocástico correlacionado, que varia localmente;
• ε″ é um ruído aleatório não correlacionado, com distribuição normal com
média zero e variância σ2.

Figura 3-7- Componentes de uma variável regionalizada.


As Figura 3-7(a) e (b) ilustram as três componentes principais da variação
espacial. A Figura 3.8(a) apresenta uma componente determinística que possui um
comportamento regular (diferença entre os níveis médios), enquanto a componente
determinística na Figura 3.8(b) apresenta uma tendência constante.
A hipótese mais simples sobre o comportamento da variável regionalizada é que
a média do fenômeno, µ(x), seja constante na região de estudo, o que implica em
não haver variação significativa na larga escala. Esta hipótese dá origem aos
interpoladores de Krigagem ordinária, discutida a seguir. No caso de se querer
modelar uma tendência, há vários métodos disponíveis: Krigagem Universal,
Funções Aleatórias Intrínsecas de Ordem k, não discutidos neste capítulo.
Na hipótese da Krigagem ordinária, µ(x) é constante e denotada por m. Deste
modo, o valor esperado da função aleatória Z nas posições x e x + h são iguais a m.
Isto implica que o valor esperado da diferença entre os valores observados em x e x
+ h, separados por um vetor de distância h, é nulo:

E [Z(x) - Z(x+h)] = 0 (3.11)


Admite-se também que o fenômeno considerado seja estacionário de segunda
ordem, isto é, a covariância entre dois pares quaisquer Z(x) e Z(x + h), separados
por um vetor distância h, existe e depende somente de h. Então:

C(h) = COV [ Z(x), Z(x+h)] = E[Z(x).Z(x+h)] – m2 (3.12)


Adicionalmente, a estacionariedade da covariância implica na estacionariedade
da variância:
Var(Z(x)) = E [Z(x)- m]2 = E[Z2(x)] – 2E[Z(x)].m + m2 (3.13)
ou ainda

Var(Z(x)) = E[Z2(x)] – 2m.m + m2 = E[Z2(x)] – m2 = C(0) (3.14)


Deste modo, verifica-se que as hipóteses de média constante e estacionariedade
da covariância implicam que a determinação da função C(h) é suficiente para
caracterizar a variável regionalizada. Isto quer dizer que, com base na Equação 3.10,
a função C(h) permite caracterizar o termo estocástico ε′(x). Para determinar C(h),
utiliza-se uma função auxiliar, chamada de função variograma 2γ(h), definida por:

2γ(h)= E[Z(x) - Z(x+h)]2 (3.15)


que pode ser desenvolvida em:

2γ(h)= E[Z2(x) -2 Z(x).Z(x+h) - Z2(x+h)] (3.16)


ou ainda

2γ(h)= E[Z2(x)] -2 E[Z(x).Z(x+h)] - E[Z2(x+h)] (3.17)


Da equação (3.14), obtém-se

E[Z2(x)] = E [Z2(x+h)] = C(0) + m2 (3.18)


e da equação (3.13) obtém-se

E[Z(x).Z(x+h)] = C(h) + m2 (3.19)


Substituindo as equações (3.18) e (3.19) na equação (3.17), obtém-se:

2γ(h) = 2C(0) – 2C(h) ou γ(h) = C(0) – C(h) (3.20)


onde:
γ(h) representa o semivariograma, que é metade do variograma. A relação em
(3.20) indica que sob a hipótese de estacionariedade de 2a ordem, que a covariância
e o semivariograma são formas alternativas de caracterizar a autocorrelação dos
pares Z(x) e Z(x+h) separados pelo vetor h.
3.1.2 DETERMINAÇÃO EXPERIMENTAL DO SEMIVARIOGRAMA

O semivariograma é uma ferramenta básica de suporte às técnicas de


Krigeagem, pois permite representar quantitativamente a variação de um fenômeno
regionalizado no espaço. O semivariograma pode ser calculado experimentalmente,
considerando o esquema de amostragem em duas dimensões mostrado na Figura
3-8, onde z(x) denota o valor de uma posição cujos componentes são (x1, y1), e
z(x+h) o valor da amostra numa posição cujos componentes são (x2 , y2), sendo h
um vetor distância (módulo e direção) que separa os pontos.
y

z(x1+h)
y2

h
z(x1)
y1

x1 x2 x
Figura 3-8 – Amostragem em duas dimensões.
A determinação experimental do semivariograma, para cada valor de h,
considera todos os pares de amostras z(x) e z(x+h), separadas pelo vetor distância h,
a partir da equação:
1 N( h )
γˆ ( h ) = ∑ [ z( xi ) − z ( xi + h )] 2
2 N ( h ) i =1
(3.21)

onde:

γ̂ (h) é o semivariograma estimado e N(h) é o número de pares de valores


medidos, z(x) e z(x+h), separados pelo vetor h. Esta fórmula, entretanto, não é
robusta. Podem existir situações em que variabilidade local não é constante e se
modifica ao longo da área de estudo (heteroscedasticidade). Um caso particular
desse fato (denominado efeito proporcional) ocorre quando as distribuições são
assimétricas e a média se correlaciona com a variância. O estimador de
semivariograma apresentado em (3.22) não é resistente a esse efeito e apresenta
tendências que impedem a estimação correta de seus parâmetros. Para expressões
alternativas, deve-se consultar Cressie (1993).
Na prática, pode-se fazer a hipótese adicional de que o fenômeno é isotrópico
(com comportamento igual em todas as direções). Neste caso, a determinação
experimental do semivariograma depende apenas da distância entre as amostras e
não da direção relativa entre elas. O tratamento da anisotropia (caso em que a
estrutura espacial do fenômeno varia conforme a direção) é discutido no Apêndice
deste capítulo.
As hipóteses de estacionariedade e média constante levam a postular um
comportamento idealizado para o semivariograma experimental, mostrado na
Figura 3-9. Espera-se que observações mais próximas geograficamente tenham um
comportamento mais semelhante entre si do que aquelas separadas por maiores
distâncias. Assim, o valor absoluto da diferença entre duas amostras z(x) e z(x+h)
deveria crescer à medida que aumenta a distância entre elas, até um valor na qual os
efeitos locais não teriam mais influência.

^γ(h)
Patamar (C)

Efeito Pepita (Co)

Alcance (a) h
Figura 3-9 – Parâmetros do variograma.

Os parâmetros do semivariograma podem ser observados na Figura 3-9:


• Alcance (a): distância dentro da qual as amostras apresentam-se correlacionadas
espacialmente.
• Patamar (C): é o valor do semivariograma correspondente a seu alcance (a).
Deste ponto em diante, considera-se que não existe mais dependência espacial
entre as amostras, porque a variância da diferença entre pares de amostras (Var
[Z(x) - Z(x+h)]) torna-se aproximadamente constante.
• Efeito Pepita (C0): idealmente, γ(0)=0. Entretanto, na prática, à medida que h
tende para zero, γ(h) se aproxima de um valor positivo chamado Efeito Pepita
(C0), que revela a descontinuidade do semivariograma para distâncias menores
do que a menor distância entre as amostras. O efeito pepita é o valor da
semivariância para a distância zero e representa a componente da variabilidade
espacial que não pode ser relacionado com uma causa específica (variabilidade
ao acaso). Parte desta descontinuidade pode ser também devida a erros de
medição, sendo impossível quantificar se a maior contribuição provém dos erros
de medição ou da variabilidade de pequena escala não captada pela
amostragem.

3.1.3 MODELOS TEÓRICOS

O gráfico do semivariograma experimental, γ̂ (h) , calculado através da Equação


(3.22), é formado por uma série de valores, conforme ilustra a Figura 3-9, sobre os
quais se objetiva ajustar uma função. É importante que o modelo ajustado
represente a tendência de γ̂ (h) em relação a h. Deste modo, as estimativas obtidas a
partir da krigagem serão mais exatas e, portanto mais confiáveis.
O procedimento de ajuste não é direto e automático, como no caso de uma
regressão, por exemplo, mas sim interativo, pois nesse processo o intérprete faz um
primeiro ajuste e verifica a adequação do modelo teórico. Dependendo do ajuste
obtido, pode ou não redefinir o modelo, até obter um que seja considerado
satisfatório.
Os modelos aqui apresentados são considerados modelos básicos, denominados
modelos isotrópicos. Estão divididos em dois tipos: modelos com patamar e
modelos sem patamar. Modelos do primeiro tipo são referenciados na geoestatística
como modelos transitivos. Alguns dos modelos transitivos atingem o patamar (C)
assintoticamente. Para tais modelos, o alcance (a) é arbitrariamente definido como a
distância correspondente a 95% do patamar. Modelos do segundo tipo não atingem
o patamar, e continuam aumentanto enquanto a distância aumenta. Tais modelos
são utilizados para modelar fenômenos que possuem capacidade infinita de
dispersão. Os modelos transitivos mais utilizados são: modelo esférico (Sph),
modelo exponencial (Exp) e modelo gaussiano (Gau). Estes modelos estão
apresentados na Figura 3-10 com o mesmo alcance (a).
γ(h)
Modelo Exponencial
Modelo Esférico
Modelo Gaussiano
C=1

0
0 a h
Figura 3-10 – Representação gráfica de modelos transitivos normalizados.
Modelo Esférico
O modelo esférico é um dos modelos mais utilizados e está representado na Figura
3-10. A equação normalizada deste modelo é:

0 , | h |=0

  | h |  | h |
3
Sph ( h ) =1,5  − 0,5 


 a  , 0 <| h |≤a (3.22)
  a   
1 , | h |>a


Modelo Exponencial
Um outro modelo bastante utilizado é o modelo exponencial, o qual é apresentado
na Figura 3-10. A equação normalizada deste modelo é:

0 , | h |=0

Εxp( h )=  | h | (3.23)
1−exp − a , | h |≠0
  
Este modelo atinge o patamar assintoticamente, com o alcance prático definido
como a distância na qual o valor do modelo é 95% do patamar.
Modelo Gaussiano
O modelo gaussiano é um modelo transitivo, muitas vezes usado para modelar
fenômenos extremamente contínuos. Sua formulação é dada por:

0 , | h |=0

Gau( h )=   | h |
2 (3.24)
1−exp −  , | h |≠0
  a 
Semelhante no modelo exponencial, o modelo gaussiano atinge o patamar
assintoticamente e o parâmetro a é definido como o alcance prático ou distância na
qual o valor do modelo é 95% do patamar. O que caracteriza este modelo é seu
comportamento parabólico próximo à origem, conforme a Figura 3-10 .

Até este ponto foram apresentados os principais modelos básicos normalizados,


os quais são utilizados para ajustar o semivariograma experimental. Na prática, os
semivariogramas experimentais possuem valores de efeito pepita (Co) maior que
zero e valores de patamar (C) maiores que a unidade, conforme ilustrado na Figura
3-11.

γ(h) Modelo Exponencial


Modelo Esférico
Modelo Gaussiano
C

C1
C = Co + C1

C1 : Contribuição
Co do Modelo

0 a h

Figura 3-11 - Representação gráfica de semivariogramas experimentais e modelos teóricos.

Em resumo, os semivariogramas dos modelos transitivos básicos são assim


definidos:
• Modelo Esférico de Semivariograma:

0 , | h |= 0

  3  | h |  1  | h | 3

γ(h)=C +C   −  =C +C [ Sph (| h |) ] ,0 <| h |≤a
o 1  2  a  2  a   o 1
(3.25)
  

Co +C1 ,| h |>a

• Modelo Exponencial de Semivariograma:

0 ,| h |= 0

γ (h)=   | h |  (3.26)
C o + C 11−exp − a  =C o + C 1 [ Exp (| h |)] , | h |≠ 0
   
• Modelo Gaussiano de Semivariograma:

0 ,| h |= 0

γ(h)=  2 (3.27)
  | h | 
 o
C + C 1 1−exp  −  =C o + C1 [Gau (| h |)] ,| h |≠ 0
   a  
 

Modelos Aninhados
Existem determinados fenômenos em que são necessários modelos mais
complexos de semivariograma para explicar suas variações espaciais. Estes modelos
são combinações de modelos simples, denominados aninhados; em muitos casos, os
modelos aninhados são necessários para explicar a variação de fenômenos
decorrentes da combinação de fatores independentes de formação. Por exemplo,
um modelo aninhado útil em estudos de mineração e pesquisa de solo é o duplo
esférico, definido como:

   3
  3  | h |  1  | h |  
C0 + C1  2  a  − 2  a   = γ1 (h) , 0 < | h | ≤ a1
   1   1  


   3
γ (h)=  3  | h |  1  | h |  
C0 + C 2  2  a  − 2  a   = γ 2 (h) , a1 < | h | ≤ a 2 (3.28)
   2   2  

C + C + C ,| h | > a
 0 1 2 2
0 ,| h | = 0

onde,

• a1 e C1 correspondem aos parâmetros de alcance e contribuição,


respectivamente, do primeiro modelo esférico ( γ1 (h) ).

• a2 e C2 correspondem aos parâmetros de alcance e contribuição,


respectivamente, do segundo modelo esférico ( γ 2 (h) ).

Este modelo é mostrado na Figura 3-12, onde as linhas sólida e pontihada


representam os modelos de ajuste teórico ao semivariograma experimental.
γ(h)

C2

γ1 (h)
C1
γ2 (h)

a1
C0 a2

h
Figura 3-12 - Representação gráfica de um modelo duplo esférico.

Dependendo do fenômeno em estudo, outros modelos aninhados são


necessários para caracterizar a variabilidade espacial.

3.5 KRIGAGEM

O termo krigagem é derivado do nome Daniel G. Krige, que foi o pioneiro a


introduzir o uso de médias móveis para evitar a superestimação sistemática de
reservas de mineração. Inicialmente, o método de krigagem foi desenvolvido para
solucionar problemas de mapeamentos geológicos, mas seu uso expandiu-se com
sucesso no mapeamento de solos, mapeamento hidrológico, mapeamento
atmosférico e outros campos correlatos. A diferença entre a krigagem e outros
métodos de interpolação é a maneira como os pesos são atribuídos às diferentes
amostras. No caso de interpolação linear simples, por exemplo, os pesos são todos
iguais a 1/N (N = número de amostras); na interpolação baseada no inverso do
quadrado das distâncias, os pesos são definidos como o inverso do quadrado da
distância que separa o valor interpolado dos valores observados. Na Krigeagem, o
procedimento é semelhante ao de interpolação por média móvel ponderada, exceto
que aqui os pesos são determinados a partir de uma análise espacial, baseada no
semivariograma experimental. Além disso, a krigagem fornece, em média,
estimativas não tendenciosas e com variância mínima1.

1
Estimativas não tendenciosas significam que, em média, a diferença entre valores
estimados e observados para o mesmo ponto deve ser nula; e variância mínima
significa que estes estimadores possuem a menor variância dentre todos os estimadores não
tendenciosos.
A krigagem engloba um conjunto de métodos de estimação, incluindo
procedimentos estacionários(krigagem simples e ordinária), não estacionários
(krigagem universal, funçoes intrinsicas de ordem k), univariados e multivariados (
co-krigeagem etc). Este capítulo limita-se à apresentação da krigagem ordinária,
descrita a seguir.

3.5.1. KRIGEAGEM ORDINÁRIA

Considere uma superfície sobre a qual se observe alguma propriedade do solo, Z,


em n pontos distintos, com coordenadas representadas pelo vetor x. Assim, tem-se
um conjunto de valores {z(xi), i=1, ..., n}, onde xi identifica uma posição em duas
dimensões representada pelos pares de coordenadas (xi, yi). Suponha que se objetive
estimar o valor de Z no ponto c. O valor desconhecido de Z(x0) pode ser estimado
a partir de uma combinação linear dos n valores observados, adicionado a um
parâmetro λ0 :
n
(3.29)
Z* ( x 0 ) =λ0 + ∑ λi Z(x i )
i =1

Deseja-se um estimador não tendencioso, isto é,


E [Z(x0) – Z*(x0)] = 0 EPKPMF
A relação acima impõe que as duas médias sejam iguais; assim aplicando-se a
Equação 3.34 em 3.35, obtém-se:
 n
 n (3.31)
E [Z(x 0 )]=E λ0 + ∑ λ i .Z(x i )⇒m=λ0 +∑ λ i m
 i =1  i =1

A krigagem ordinária não requer o prévio conhecimento da média m. Neste


caso, para que a igualdade da Equação 3.36 seja satisfeita é necessário que
n
λ0 =0 e ∑ λi =1 .Portanto, o estimador de Krigeagem ordinária é:
i =1

n
(3.32)
∑ λ =1
n
Z * (x 0 ) = ∑ λi Z ( x i ) , com i
i =1 i =1

n
Minimizando a variância do erro (Var [Z(x0) – Z*(x0)]) na condição de ∑ λi =1 ,
i =1

os pesos λi são obtidos a partir do seguinte sistema de equações, denominado


sistema de krigeagem ordinária:
n
∑ λ j C( x i , x j ) − α = C( xi , x0 ) para i = 1, ..., n
 j=1
 (3.33)
n
∑ λ j =1
 j=1

onde,
• C(xi, xj) e C(xi, x0) são, respectivamente, a semivariância entre os pontos xi
e xj e entre os pontos xi e x0.

• α é o multiplicador de Lagrange necessário para a minimização da


variância do erro.

A correspondente variância minimizada do erro, denominada variância de


krigagem ordinária (σ 2ko ), é dada pela expressão

n
(3.34)
σ ko2 =Var[ Z ( x ) − Z * ( x 0 )] = C( 0 ) −∑ λ i C( x i ,x 0 ) − α
i =1

A krigagem ordinária é um interpolador exato no sentido de que, quando as


equações acima forem usadas, os valores interpolados irão coincidir com os valores
dos pontos amostrais. Além disso, a variância da krigagem ordinária, indicada na
equação (3.35), fornece informação importante sobre a confiabilidade dos valores
interpolados.

3.6 ESTUDO DE CASO

` Tomemos como exemplo a distribuição amostral apresentada na Figura 3-2,


cuja as estatísticas descritivas estão sumarizadas na Tabela 3-1. A análise da
variabilidade espacial, do teor de argila, é realizada com o auxílio do
semivariograma. Esta é uma das etapas mais importantes, pois o modelo de
semivariograma escolhido representa a estrutura de correlação espacial a ser
utilizada nos procedimentos inferenciais de krigagem. O resultado apresentado na
Figura 3-13, mostra o semivariograma omnidirecional (caso isotrópico) e seu
modelo de ajuste.
γ(h) Semivariograma Omnidirecional
390 Modelo Esferico
351
312
273
234
195
156
117
78
39
h
0
0 1000 2000 3000 4000 5000

Figura 3-13 – Semivariograma omnidirecional e modelo esférico

O modelo de ajuste, mostrado na Figura 3-13, têm os seguintes parâmetros:


Estrutura tipo Esférica, Efeito Pepita (Co) = 118,85; Contribuição (C1) = 230,89 e
Alcance (a) = 3989,20. O modelo teórico, normalizado em relação ao alcance, leva
a seguinte notação:

  h    h 
γ ( h ) = C o + C1 Sph    =118,85 + 230,89 Sph   (3.35)
  a    3989,20  

Uma vez definido o modelo e validado o mesmo, a etapa seguinte refere-se à


estimação de krigagem ordinária. Como resultado têm-se uma grade de valores
estimados e uma outra que refere-se à variância de krigagem. Ambas são convertidas
em superfícies e apresentadas na Figura 3-14. Na Figura 3-14 à esquerda, regiões
mais claras representam altos valores de teor de argila e vice-versa. Diferente dos
métodos determinísticos (ver Figura 3-4), o uso da krigagem ordinária como
método de interpolação espacial permitiu capturar e, portanto, representar com
mais qualidade, a variabilidade espacial inerente à propriedade em estudo. Além
disso, conforme ilustra a Figura 3-14 à direita, a krigagem ordinária fornece a
variância da estimativa (denominada variância de krigagem). Tal informação pode
ser útil para identificar regiões onde a amostragem pode ser melhorada.
Figura 3-14 – À esquerda a superfície do teor de argila e à direita a variância de krigagem.
Com algumas ressalvas, o método da média ponderada pelo inverso do
quadrado da distância, produz resultado que se assemelha ao resultado da krigagem
ordinária. O ponto crítico, porém, ocorre em regiões onde há agrupamento
(“clusters”) de amostras. A krigagem ordinária, por utilizar intrinsecamente uma
estrutura de covariância, consegue tratar redundâncias (“clusters”), isto é, atribuir
pesos adequados para os agrupamentos de amostras. Fato este não considerado nos
procedimentos determinísticos. Além disso, na krigagem ordinária, a área de
influência na interpolação é indicada pelo alcance; já nos procedimentos
determinísticos, como o método da média ponderada pelo inverso do quadrado da
distância, o raio de busca é arbitrário.
Os resultados produzidos pelos métodos média simples e vizinho mais próximo,
são menos expressivos com relação aos demais. O método da média simples produz
resultado que apresenta imbricação, principalmente na região central da área de
estudo. Já o método de inferência relativo ao vizinho mais próximo, embora sendo
o que pior expressa a variabilidade espacial do fenômeno estudado, revela a área de
influência de cada ponto de observação. Tal informação é de grande valia, como,
por exemplo, numa análise preliminar para detecção de valores amostrais suspeitos.
Um outro fato que merece atenção, é que os resultados apresentados na Figura
3-14 são oriundos de um modelo isotrópico. A suposição de isotropia, que é rara
em fenômenos naturais, simplifica a modelagem por procedimentos geoestatísticos.
Se a anisotropia existe, deve ser detectada e modelada, afim de representar com
mais qualidade, a variabilidade espacial inerente à propriedade em estudo. No
apêndice ao Capítulo, são apresentados alguns tópicos sobre anisotropia e uma
técnica para a modelagem da mesma.

3.7 CONCLUSÕES

Conclui-se que é possível melhorar a distribuição espacial das variáveis


ambientais significativamente quando procedimentos geoestatísticos são aplicados.
Ficou constatado que o teor de argila varia mais intensamente numa direção do que
em outra. Tal fato refere-se à anisotropia da variável em estudo. Muitos aspectos
particulares dos dados ficariam ocultos sem o uso de semivariogramas e da
modelagem da anisotropia, mostrando, por exemplo, a tendência da distribuição
espacial nos dados de teor de argila. Informações como estas não são apresentadas
quando se usam apenas parâmetros estatísticos clássicos como médias e variâncias
ou então, procedimentos determinísticos.

3.8 REFERÊNCIAS BIBLIOGRÁFICAS

A estrutura teórica da geoestatística está apresentadas na Teoria das Variáveis


Regionalizadas, desenvolvida por Matheron (1971) e um artigo detalhado e teórico
sobre geoestatística é escrito por Journel (1988). A referência básica sobre
geoestatística, com um conjunto extensivo de exemplos é o livro de Issaks e
Srivastava (1989). A descrição da GSLIB, uma das bibliotecas mais utilizadas para o
desenvolvimento de programas em geoestatística, pode ser encontrada no livro de
Deutsch e Journel (1992). Com relação à integração entre geoestatística e SIGs, o
leitor deve referir-se a Camargo (1997), que descreve o desenvolvimento de um
módulo geoestatístico no ambiente SPRING. Referências básicas sobre métodos de
interpolação são descritas por Burrough (1987). O exemplo de superfícies de
tendência está baseado no trabalho de Bönisch (2001).

Bönisch, S. (2001) Geoprocessamento Ambiental com Tratamento de Incerteza: O


Caso do Zoneamento Pedoclimático para a Soja no Estado de Santa Catarina.
Dissertação (Mestrado em Sensoriamento Remoto) – Instituto Nacional de
Pesquisas Espaciais, São José dos Campos.
Burrough, P. (1987). Principles of geographical information systems for land
resources assessment. Oxford, Clarendon Press.
Camargo, E. (1997). Desenvolvimento, Implementação e Teste de Procedimentos
Geoestatísticos (Krigeagem) no Sistema de Processamento de Informações
Georreferenciadas (SPRING). Dissertação (Mestrado em Sensoriamento
Remoto) – Instituto Nacional de Pesquisas Espaciais, São José dos Campos.
Deutsch, C. e A. Journel (1992). GSLIB: Geostatistical Software Library and user’s
guide. New York, Oxford University Press.
Issaks, M. e E. Srivastava (1989). An Introduction to Applied Geostatistics. New
York, Oxford University Press, 1989.
Journel, A. (1988). Fundamentals of geostatistics in five lessons. California,
Stanford Center for Reservoir Forecasting Applied Earth Sciences Department.
Matheron (1963, 1971). The theory of regionalized variables and its applications.
Paris, Les Cahiers du Centre de Morphologie Mathematique de Fontainebleu,
1971. 211p.
APÊNDICE
MODELAGEM DA ANISOTROPIA
A anisotropia é uma característica muito freqüente nos elementos da natureza,
isto é, a variabilidade ou distribuição espacial de tais elementos ocorre mais
intensamente numa direção e menos intensamente em outra direção. Tome como
exemplo o mapeamento do teor de zinco, dentro de uma região de interesse, é
pouco provável que tal propriedade se espalhe igualmente em todas as direções.
Para lidar com a anisotropia, é importante que o modelo proposto represente
bem a variabilidade espacial da propriedade em estudo. Procedimentos
determinísticos para este fim são limitados, porque não consideram a estrutura de
autocorrelação espacial bem como a anisotropia presente. Modelos mais adequados
para este objetivo vem sendo propostos e a geoestatística engloba esses modelos.

TIPOS DE ANISOTROPIA

Antes de apresentar os tipos de anisotropia, é necessário mostrar as convenções


direcionais usadas na geoestatística. Isto é resumido conforme ilustra a Figura 3-15.

Figura 3-15 - Convenções direcionais usadas na geoestatística.


Quando os semivariogramas experimentais direcionais apresentam diferenças
acentuadas, a distribuição é denominada anisotrópica. Se a anisotropia é observada
e é refletida pelo mesmo Patamar (C) com diferentes Alcances (a) do mesmo
modelo, então ela é denominada Geométrica, conforme ilustra a Figura 3-16. Existe
ainda um outro tipo de anisotropia em que os semivariogramas experimentais
direcionais apresentam os mesmos Alcances (a) e diferentes Patamares (C). Neste
caso, a anisotropia é denominada zonal. Como a isotropia, a anisotropia zonal
também é pouco presente nas variáveis ambientais. O mais comum é encontrar
combinações da anisotropia Zonal e Geométrica, denominada anisotropia
Combinada, conforme Figura 3-16. Na Figura 3-16, a1 e a2 estão relacionados às
direções de menor e maior continuidade espacial da variável, respectivamente.

γ(h) γ(h)
C C1
C2

1 2 1 2
Co1

Co Co2

a1 a2 h a1 a2 h

Figura 3-16 – À esquerda Anisotropia Geométrica e à direita Anisotropia Combinada.

DETEÇÃO DA ANISOTROPIA

Existem várias formas de detectar a anisotropia, por exemplo calculando-se os


semivariogramas experimentais direcionais em várias direções, desenhando todos
num único gráfico, e visualmente avaliando suas similaridades. Outra forma, é
através do esboço gráfico de uma elipse (conhecido também como diagrama da
rosa), calculada através dos alcances obtidos em direções distintas.
A forma mais eficiente e direta de detectar a anisotropia é através do mapa de
semivariograma, conhecido também como semivariograma de superfície, que é um
gráfico, 2D, no qual obtém-se uma visão geral da variabilidade espacial da variável
em estudo. Além disso, sobre o mapa de semivariograma é possível detectar
rapidamente os eixos de anisotropia, isto é, as direções de maior e menor
variabilidade espacial da variável em análise. A Figura 3-17 ilustra o mapa de
semivariograma aplicado aos dados da EMBRAPA – Solos, obtidos na Fazenda
Canchim, em São Carlos - SP., conforme descritos na Seção 3.1. Os eixos maior e
menor, da elipse, correspondem às direções de maior e menor variabilidade espacial
do teor de argila respectivamente. O ângulo de anisotropia é tomado da direção
norte, em sentido horário, até o eixo maior; neste caso igual a 17 o.
Conseqüentemente a direção de menor variabilidade é 17o + 90 o = 107 o.
Obviamente que a exigência de ortogonalidade entre os eixos, pode não
corresponder à realidade, mas é necessário para modelagem dos semivariogramas
como será visto mais adiante.
Figura 3-17 – Mapa de Semivariograma do teor de argila.

MODELAGEM DA ANISOTROPIA

O princípio fundamental na modelagem de anisotropia (geométrica, zonal ou


combinada), consiste em usar todas as estruturas presentes em todas as direções,
atribuindo um alcance infinito às inexistentes. Inicialmente identificam-se os eixos
de anisotropia, isto é, os eixos de maior e de menor variabilidade espacial da
variável em estudo. Isto é realizado com auxílio do mapa de semivariograma
conforme descrito na seção anterior. Identificados os eixos de anisotropia,
calculam-se os dois semivariogramas experimentais direcionais, relativos às direções
de maior e menor variabilidade espacial da variável em estudo, e procede-se o
ajuste dos mesmos. Estabelecidos os dois modelos, o passo seguinte é combiná-los
num modelo único e consistente para todas as direções.

MODELAGEM DA ANISOTROPIA GEOMÉTRICA

Como dito anteriormente, se a anisotropia é observada e é refletida pelo


mesmo Patamar (C) com diferentes Alcances (a) do mesmo tipo de modelo, então
ela é denominada geométrica. Considere o exemplo da Figura 3-18, as direções de
menor e maior variabilidade espacial são 0o e 90o respectivamente e os modelos de
ajustes são esféricos em ambas direções.
γ(h)

C=17

o
0
C1=15

o
90

Co=2

10 20 h
Figura 3-18 – Exemplo de anisotropia geométrica.

O modelo de semivariograma relativo à direção 0o é:


γ 00 ( h ) = C o + C1 [Sph (h )] (3.36)

O termo Sph (h) é apenas uma notação representativa do modelo teórico


esférico normalizado, conforme apresentado na Seção 0. Lembre-se que h é um
vetor, portanto seu módulo pode ser decomposto; isto é:

h= (h ) + (h )
0o
2
90 o
2
(3.37)

A Figura 3-19 ilustra uma decomposição genérica para o vetor h.

Norte (0o)

h0o
|
|h

α Leste (90o)
h90o
Figura 3-19 – Decomposicão genérica do vetor h.
Para direção de análise em questão, 0o, o vetor h está sobre o eixo Norte,
portanto não possui componente na direção 90o; isto é, para 0o => α=90o (ver α
na Figura 3-19), h0o = |h|.sen(90o) = | h | e h90o = | h |.cos(90o) = 0.
Normalizando 3.39 em relação ao alcance (a), tem-se:
2 2
h h o  h o 
=  0  +  90  (3.38)
a  a   a 
h 90o
Neste caso, como a componente é sempre nula, podemos atribuir um
a
alcance infinito à direção 90o. Assim, a equação 3.21 é escrita da forma:

2 2
h h o  h o 
=  0  +  90  (3.39)
a  a   ∞ 
O modelo normalizado do semivariograma relativo à direção 0o é definido
como:
  2 
 h 00   h900  
2
    + 
γ 00 ( h ) = C 0 + C1 Sph   a   ∞   (3.40)
      
  

Substituindo os valores de C0, C1 e a, conforme Figura 3-18, tem-se:


  2 
 h 00   h900  
2
    + 
γ 00 ( h ) = 2 + 15 Sph   10   ∞   (3.41)
      
  

De maneira análoga, o modelo de semivariograma relativo à direção 90o é:


  2 
 h 00   h900  
2

γ 900 ( h ) = 2 + 15 Sph    +
 ∞   20  
 (3.42)
      
  
Uma vez definidos os modelos relativos às direções de 0o e 90o, determina-se o
modelo único e consistente para qualquer distância e direção do vetor h. Das
Equações 3.44 e 3.45, obtem- se o modelo único que é expresso através da seguinte
equação:
  2 
 h 00   h 900   
2

γ( h ) = 2 +15 Sph    + 
 10   20    (3.43)
      
  
A consistência desse modelo é verificada primeiro determinando-se os valores
das componentes h0o e h90o para um determinado vetor h. Em seguida, calcula-se o
valor de γ( h). Por exemplo, deseja-se saber o valor de γ( h) na direção 0o quando
|h| = alcance; isto é, | h | = 10. Neste caso, as componentes h0o e h90o valem:

h0o = | h |.sen(α) = a.sen(α) = 10.sen(90o) = 10.

h90o = | h |.cos(α) = a.cos(α) = 10.cos(90o) = 0.

 2 2  2 2
  10   0     10   0  
Sph(| h |) =1,5    +    − 0,5    +    = 1
  10   20     10   20  
   
Seguindo, determina-se γ( h):
  2 2 
   h 00   h900  
γ( h ) = 2 +15 Sph    +   = 2 + 15.[1] = 17
   10   20  
   
  
De maneira análoga, na direção 90o quando | h | = 20, tem–se que γ( h) = 17.
E assim por diante, para uma direção θ qualquer quando | h | → 0, tem-se que γ( h)
= 2, que é o Efeito Pepita.

MODELAGEM DA ANISOTROPIA COMBINADA

Neste caso, a anisotropia é observada e é refletida com diferentes Patamares (C)


e Alcances (a) do mesmo tipo de modelo, podendo ainda apresentar dois valores
distintos de Efeito Pepita (Co). O exemplo da Figura 3-20, referem-se aos
semivariogramas nas direções de maior e menor variabilidade espacial do teor de
argila, detectadas na Seção 0. Ambos semivariogramas foram ajustados com
modelos esféricos.
γ(h)

365

274

231
203

91

28

0
1677 2962 h

Figura 3-20 – Anisotropia combinada referente ao teor de argila.


O modelo de semivariograma relativo à direção 17o é:
  2 
 h170   h107 0  
2

γ17 0 ( h ) = 91+ 274 Sph     
 2962  +  ∞   (3.44)
      
  
O modelo de semivariograma relativo à direção 107o é:

  2 
 h170   h107 0  
2
     
γ107 0 ( h ) = 28 + 203 Sph   ∞  +  1677   (3.45)
      
  
Uma vez estabelecidos os modelos relativos às direções de mínima e máxima
continuidade espacial do fenômeno, procede-se à modelagem da anisotropia
combinada. A modelagem da anisotropia combinada é um caso mais complexo que
a modelagem da anisotropia geométrica. A idéia básica é dividir em faixas
convenientes o gráfico de semivariograma, conforme ilustra a Figura 3-21, de
maneira que, em cada faixa reste somente a anisotropia geométrica. Evidentemente
que esta técnica exige o conhecimento e prática com semivariogramas e modelagem
da anisotropia.
γ(h)

365

a
4 Faixa
274

231
203

a
3 Faixa

91
2a Faixa
28
1a Faixa
0
1677 2962 h

Figura 3-21 – Definição das faixas para modelagem da anisotropia combinada.

Uma vez estabelecido de forma conveniente as faixas, a anisotropia combinada


é decomposta graficamente, conforme ilustra a Figura 3-22, de modo que, cada
parcela represente somente a anisotropia geométrica.
γ(h)

365

170
a
4
0
107
274

231 1
a
2a

63 170
3a
203

+ 1070 +
91 a
2
28
1a
0
1677 2962 h h ε 1677 h

a a
3 4
~
~

140 71

170
170
+ 1070
+
107 0
~
~

1677 2962 h 2962 h

Figura 3-22 – Decomposição da anisotropia combinada.


A anisotropia combinada apresentada na Figura 3-22 é decomposta da seguinte
forma:
A 1a parcela refere-se a um valor constante, o Efeito Pepita (C0= 28). O modelo
relativo a 1a parcela é:
γ 1 ( h) = C 0 (3.46)

Para estabelecer a anisotropia geométrica na 2a parcela, é necessário empregar


um artifício. Este consiste em utilizar um modelo esférico com alcance muito
pequeno (ε). Ιsto é necessário para modelar o segundo efeito pepita (91) relativo à
direção de 17o. Com relação a outra direção, 107o, observa-se que parte do modelo
esférico participa com uma pequena contribuição. Desta forma, a anisotropia
geométrica é caracterizada da seguinte forma: em ambas direções modelos esféricos
com contribuição 63 (91 - 28), alcance (ε) para a direção 17o e alcance 1677m para
a direção 107o. O modelo único e consistente de semivariograma relativo à 2a
parcela é:

  2 
 h170   h1070   
2

γ 2 ( h ) = 63 Sph     
 ε  +  1677    (3.47)
      
  

Na 3a parcela, a anisotropia geométrica é obtida de forma direta. Isto é, parte


de ambos modelos contribuem para a caracterização da mesma. Conforme pode ser
visto na Figura 3-22, esta é composta de uma estrutura esférica com alcance de
1677m na direção 107o, uma estrutura esférica com alcance de 2962m na direção
170 e ambas com contribuição de 140 (231 – 91). O modelo único e consistente de
semivariograma relativo à 3a parcela é:

  2 2 
   h17 0   h107 0  
γ 3 ( h ) = 140 Sph     
   2962  +  1677  

(3.48)
   
   

Para estabelecer uma anisotropia geométrica à 4a parcela é necessário empregar


um outro artifício. Observando a Figura 3-22, nota-se que não existe um modelo
associado à direção 107o. O segredo então é, atribuir um alcance muito grande, ∞, a
esta direção. Tal artifício é utilizado apenas para estabelecer a anisotropia
geométrica. Isto não influencia em nada no modelo final a ser determinado. O
resultado disto é uma estrutura esférica com alcance na direção 17o de 2962m, uma
estrutura esférica com alcance na direção 107o muito grande (∞) e ambas estruturas
com contribuição de 71 (274 – 203). O modelo único e consistente de
semivariograma relativo à 4a parcela é:

  2 
 h17 0   h107 0   
2
     
γ 4 ( h ) = 90 Sph   2962  +  ∞    (3.49)
      
  

Finalmente, o modelo completo, γ(h), e consistente para qualquer distância e


direção do vetor h, resume-se na soma das estruturas γ1(h), γ2(h), γ3(h) e γ4(h).
Então,

γ( h) = γ1(h) + γ2(h) + γ3(h) + γ4(h) (3.50)


  2   2 
 h17 0   h107 0      h17 0   h107 0  
2 2
   + 140 Sph 
γ( h ) = 28 + 63 Sph    +
 ε   1677   
   
 2962  +  1677   +
             
     

  2 2 
   h17 0   h107 0   
+ 71 Sph     
  2962  +  ∞    (3.51)
     
  

A Tabela 3.3 sumariza os parâmetros estruturais que compõem o modelo


expresso na Equação (3.54), e sua consistência é verificada de maneira análoga ao
caso de anisotropia geométrica, conforme descrita anteriormente.
Tabela 3.3 – Sumarização dos Parâmetros Estruturais.
Número de Estruturas 3
Efeito Pepita 28
Primeira Estrutura – Tipo: Esférica
Contribuição 63 Ângulo de anisotropia 17o
Menor Alcance ε Maior Alcance 1677
Segunda Estrutura – Tipo: Esférica
Contribuição 140 Ângulo de anisotropia 17o
Menor Alcance 1677 Maior Alcance 2962
Terceira Estrutura – Tipo: Esférica
Contribuição 71 Ângulo de anisotropia 17o
Menor Alcance 2962 Maior Alcance ∞
A etapa seguinte refere-se à estimação de krigagem ordinária. Como resultado,
têm-se uma grade de valores estimados e uma outra que refere-se à variância de
krigagem. Ambas são convertidas em superfícies e apresentadas na Figura 3-23.

Figura 3-23 – À esquerda superfície anisotrópica do teor de argila e à direita a variância de


krigeagem.
Analisando os resultados apresentados nas Figura 3-14 e Figura 3-23, observa-
se que as diferenças na distribuição espacial do teor de argila são acentuadas. O
resultado oriundo do modelo anisotrópico, Figura 3-23, mostra que a variável em
estudo possui uma tendência maior de espalhamento na direção de
aproximadamente 17o (ângulo de anisotropia) e uma menor tendência na direção
ortogonal (107o). Este fato, mostra a importância da modelagem da anisotropia na
reconstrução da distribuição espacial do teor de argila, proporcionando resultados e
análises mais representativas.
4

ANÁLISE ESPACIAL DE SUPERFÍCIES: O ENFOQUE DA


GEOESTATÍSTICA POR INDICAÇÃO
Carlos Alberto Felgueiras
Suzana Druck
Antônio Miguel Vieira Monteiro

4.1 Introdução

Os procedimentos de krigagem ordinária apresentados no capítulo anterior


(vide Seção 3.4) buscavam predições ótimas da variável em estudo, em locais não
observados, minimizando a variância do erro associado a essa estimativa. Neste
capítulo, o foco será na análise de modelos de incerteza, ou seja, na inferência das
distribuições de probabilidade para cada posição do espaço considerado,
representadas pelos vetores x. Os novos procedimentos vão permitir a definição de
estimadores obtidos segundo a minimização de outras funções de erro inferencial, e
não, como efetuado pela krigagem linear (vide Seção 3.5), um estimador baseado
apenas na minimização da variância do erro. Situações em que a análise da incerteza
é relevante podem ser ilustradas na aplicação da krigagem nos estudos de reposição
de nutrientes nos solos. Neste caso, o que se deseja é determinar a quantidade de
nutrientes que deve ser reposta nos solos de uma região de maneira a maximizar a
produção e tornar mínimo os custos. O processo inferencial tem como objetivo
evidenciar os locais em que um determinado fator dos solos, Z(x), é deficiente, ou
seja, os locais em que o valor estimado, Ẑ ( x ) , seja igual ou abaixo de um valor
crítico, z lim , isto é, quando Ẑ ( x ) ≤ z lim . Assim, o que interessa não é inferir
exatamente um determinado valor, mas definir áreas com maior probabilidade que
o evento ocorra, ou seja, áreas onde a probabilidade do valor estimado Ẑ ( x ) ser
{ }
menor ou igual a um limite z lim , definida por Prob Ẑ ( x ) ≤ z lim , tem um valor
determinado.
Por outro lado, os erros inferenciais, que são a subestimação (estimar um valor
menor do que seria o valor real) ou, a sobre-estimação (estimar um valor maior do
que seria o valor real) vão produzir efeitos diferentes no processo produtivo.
Enquanto a subestimação pode levar a repor nutrientes onde não é necessário, e
contaminar os solos, a sobre-estimação pode conduzir a não repor nutrientes onde é
necessário e prejudicar a produtividade. Dessa forma, esses erros inferenciais não
podem ser tratados como se tivessem o mesmo impacto, e a minimização de um, ou
de outro, ou de ambos, vai depender dos objetivos impostos pelo trabalho a ser
executado. Neste contexto, o estimador de krigagem linear obtido pela

Análise Espacial de Dados Geográficos 4-1


minimização da variância (vide Seção 3.5), que considera equivalentes e simétricos
os impactos de subestimar ou sobre-estimar, seria insuficiente para apoiar as
decisões necessárias a melhor solução do problema.
Este capítulo apresenta um conjunto de técnicas que procura construir o
modelo de incerteza associado a uma determinada posição do espaço, representada
pelo vetor x. O modelo a ser produzido é condicionado a um conjunto de dados
geográficos, coletados previamente a partir de suportes amostrais pontuais. Os
exemplos, utilizados para ilustrar os conceitos deste capítulo, referem-se a
conjuntos amostrais obtidos no levantamento de solos executado na região de
Canchim (vide Seção 3.4, Figura 4-1 e Tabela 4-1). No que segue, admite-se que o
leitor esteja familiarizado com os conceitos de krigagem apresentados no capítulo 3
(Seção 3.4 a Seção 3.7).

4.2 Incertezas locais

A geoestatística considera os valores de um atributo para cada posição x ∈ A


(uma região da superfície terrestre) como uma realização de uma variável aleatória
(VA), descrita como Z ( x ) . Isto significa que, na posição x, Z ( x ) pode assumir
diferentes valores para o atributo considerado, cada valor com uma probabilidade
de ocorrência associada a ele. Uma VA Z ( x ) ordenada, contínua ou discreta, é
caracterizada pela sua função de distribuição de probabilidade acumulada, fdpa,
univariada, F ( x , z ) , definida como:

F ( x; z ) = Prob{Z ( x ) ≤ z} (4.1)

Os procedimentos por indicação (também conhecidos por funções indicatriz)


estão interessados na modelagem da função de distribuição univariada acumulada
condicionada (fdpac), isto é, a função de distribuição que pode ser construída
condicionada aos n dados amostrados, F ( x; z | (n )) , que é dada por:

F ( x; z | (n )) = Prob{Z ( x ) ≤ z | (n )} (4.2)

A F ( x; z | (n )) modela a incerteza da V.A. Z no local x , e uma vez estimada


essa função de distribuição de probabilidade ela pode ser utilizada para:
• produzir uma estimativa de valores do atributo em posições não
conhecidas;
• modelar a incerteza dos valores para o atributo nas posições estimadas;
O enfoque tradicional, oferecido pela krigagem linear, para modelar a incerteza
em locais não amostrados , consiste em computar estimativas do valor desconhecido
ẑ ( x ) e de sua respectiva variância σ̂ 2 ( x ) , e construir um intervalo de confiança do
tipo gaussiano, centrado em ẑ ( x ) ,

Análise Espacial de Dados Geográficos 4-2


Prob{Z ( x ) ∈ [ẑ ( x ) − 2σˆ ( x ), ẑ ( x ) + 2σˆ ( x )]} (4.3)
A construção deste tipo de intervalo de confiança fundamenta-se nas hipóteses:

• os erros locais de estimação têm distribuição gaussiana;


• o intervalo de confiança pode ser construído através da variância
destes erros.
Essas hipóteses são fortemente restritivas, uma vez que a distribuição local dos
erros pode apresentar severas assimetrias, principalmente quando o histograma das
amostras apresenta-se assimétrico, não se adequando a hipótese gaussiana sendo
implicitamente considerada. Por outro lado, a variância obtida através da krigagem
linear depende unicamente da configuração geométrica dos dados, e não do valor
de seu atributo naquela posição, e uma variância com essas características pode não
ser adequada para representar as incertezas na estimativa de valor para o atributo,
principalmente em regiões onde amostras próximas apresentam valores para seu
atributo, medido ou observado, muito discrepantes.
Um outro enfoque possível é considerar que primeiro é necessário modelar a
incerteza, ou seja inferir as distribuições de probabilidades locais, as distribuições
para cada ponto do espaço a ser estudado, representado pelo vetor x. Uma vez
estabelecidas as funções, F ( x; z | (n )) , e só então deduzir as estimativas ótimas para
cada ponto. Observe que o procedimento tradicional primeiro calcula a estimativa,
os valores estimados para os pontos não observados, e depois acrescenta o intervalo
de confiança, com base na variância dos erros produzidos pelo estimador. A
modelagem da incerteza, sendo construída diretamente através da fdpac,
F ( x; z | (n )) , condiciona, por construção, essa fdpac aos dados amostrais, e produz
então um modelo que é independente de uma particular estimativa ẑ ( x ) , obtida
com base em um particular estimador, no nosso caso o estimador por krigeagem
linear. Ficamos agora com o problema da inferência desta função de distribuição de
probabilidade acumulada condicionada para cada ponto do espaço, da F ( x; z | (n )) .

Vamos abordar dois enfoques, mais presentes na literatura :


• O multigaussiano, que estabelece o modelo de distribuição a ser
considerado à priori;
• O enfoque por indicação, que não estabelece nenhum modelo de
distribuição para os dados. A fdpac é modelada de forma
aproximada pela sua discretização numa série de K cortes
zk , k = 1,....k .

O primeiro enfoque, o multigaussiano, é o mais fácil de ser utilizado, mas


apresenta algumas restrições importantes:

Análise Espacial de Dados Geográficos 4-3


1. estabelece a hipótese multigaussiana para a distribuição multivariada que
não pode ser inteiramente verificada;
2. é inadequada para fenômenos que apresentam uma expressiva
correlação em valores extremos da distribuição.
O enfoque por indicação pode ser considerado mais geral. Não restringe o
fenômeno em estudo a ser representado por uma distribuição específica. Deve ser
utilizado quando os dados não se ajustam a uma distribuição multigaussiana, ou
quando os valores extremos da distribuição das amostras apresentam significante
conectividade. Esse capítulo, por essas razões, focaliza esse procedimento.

4.3 O Enfoque por Indicação

O enfoque por indicação está fundamentado na interpretação da probabilidade


condicional Prob{Z ( x ) ∈ [ẑ ( x ) − 2σˆ ( x ), ẑ ( x ) + 2σˆ ( x )]} como uma esperança
(
condicional de uma variável aleatória por indicação, I x , zk (n ) , considerada a )
informação disponível nas (n) amostras, isto é:

F ( x; z k | (n )) = E{I ( x , zk ) | (n )} k = 1,...,K (4.4)

onde I ( x , z k (n )) = 1 se Z ( x ) ≤ zk e I ( x , z k (n )) = 0 se Z ( x ) > zk

A estimativa de krigagem de uma variável por indicação, I x , zk (n ) , é também( )


uma estimativa de sua esperança condicional. Portanto, as estimativas de
F̂ ( x , zk (n )) , para k = 1,..., K , podem ser calculadas estimando-se o valor
î ( x , z k (n )) , que utiliza para sua estimativa os dados transformados para dados por
indicação, com valores 1 e 0.
Dessa forma, os procedimentos por indicação iniciam-se por uma
transformação não linear, chamada de codificação por indicação, que transforma
cada valor do conjunto amostral, z ( x ) , em valores por indicação, i( x , z k ) .

A codificação por indicação dos dados amostrais


Na distribuição de um conjunto de dados amostrais, um determinado número
de cortes K e seus respectivos valores de cortes z k , k = 1,....k , são definidos. A
codificação por indicação, se processa para cada valor de corte zk , e gera um
conjunto amostral por indicação i( x , z k ) do tipo:

Análise Espacial de Dados Geográficos 4-4


1, se z ( x ) ≤ z k
i(x ; z k ) =  (4.5)
0 , se z ( x ) > z k

A codificação por indicação é aplicada sobre todo conjunto amostral criando,


para cada valor de corte, um conjunto cujos valores são 0 ou 1. Os K valores de
corte, são definidos em função do número de amostras e devem ser escolhidos de
tal forma que os K + 1 cortes contenham aproximadamente as mesmas frequências.
Entretanto, existem algumas critérios para a escolha de K:
1. Os valores de k , devem ser representativos de toda a gama de valores
apresentados pelos dados.
2. Os valores de k devem destacar os pontos importantes da distribuição.
3. O número de cortes K não deve ser muito grande, o que demandaria grande
esforço computacional, mas principalmente não deve ser muito pequeno,
pois pode resumir aspectos relevantes da distribuição. Uma regra razoável é
considerar que o valor de K não deve ser menor que cinco (5), nem maior
que quinze (15).
Se para um determinado conjunto de dados cujos valores variam no intervalo
[5, 43] podemos definir zk = 20, 30, 39 correspondentes respectivamente a três
quantis de sua distribuição ( p = 0.25, 0.50, 0.75 ). A codificação associará a cada
valor amostral um vetor com 3 dados por indicação com valores 0 ou 1. Por
( )
exemplo, se o valor amostral z (u j ) = 25.2 , então o valor por indicação i u j ,20 = 0 e
( )
representa a probabilidade de Z u j assumir valores menores ou iguais a 20, dado
[( ) ( ) ]
que o valor de z (u j ) = 25,2 , Prob Z u j ≤ 20 z u j = 25.2 . Considerando os três
valores de zk , o vetor por indicação seria representado como abaixo descrito:

{ }
0 i ( x j ,20 )  Prob Z (x j ) ≤ 20 z ( x j ) = 25.2 
 

  { j j }
1  = i ( x ,30)  →  Prob Z (x ) ≤ 30 z (x ) = 25.2 
   j 
 
{
1  i ( x J ,39)  Prob Z (x ) ≤ 39 z (x ) = 25.2 
 j j } 

4.3.2 A variografia por indicação


A análise de variografia se processa de forma semelhante a realizada na
krigeagem linear (vide Seção 3.5), considerando-se separadamente o conjunto de
valores por indicação para cada valor de corte, z k . Dessa forma, para cada valor de
corte z k um modelo de variograma deve ser estabelecido, o que corresponderia, no
exemplo anterior, ao ajuste de 3 modelos de semivariogramas a partir de 3
variogramas experimentais computados como:

Análise Espacial de Dados Geográficos 4-5


N (h )
γ I (h , z k ) = ∑ [i (hα ; z k ) − i (hα + h ; z k )]2
1
(4.6)
2 N (h ) α =1

Como os valores das variáveis por indicação são 0 e 1, o variograma por


indicação é, usualmente, bem comportado e resistente a valores extremos
("outliers"). Também as amostras de i (u , zk ) para cada zk são considerados como
amostras de uma distribuição Bernouilli cuja variância máxima é 0.25. Dessa forma
o efeito pepita somado ao patamar, que são aproximadamente iguais ao valor da
variância, terá como valor máximo 0.25. Calcular os variogramas é relativamente
simples, sendo a única dificuldade prática o número de variogramas a ser
modelados.

4.3.3 A estimação dos valores por indicação


Como mencionado anteriormente para cada valor de corte z k , k = 1,....k , a
F̂ ( x , z k (n )) pode ser estimada através da combinação linear dos dados por
indicação i( x , z k ) . O estimador linear é expresso em termos de VAs por indicação.
n(u )
 n (u ) 
F̂ ( x; z k | (n)) = ∑ λα ( x; z k )I ( xα ; z k ) + 1 − ∑ λα ( x; z k ) I ( x ; z k ) (4.7)
α =1  α =1 
onde λα ( x ; z k ) é o peso assinalado a cada dado convertido interpretado como uma
realização de uma variável aleatória por indicação. Se a média por indicação,
E[I ( x ; z k ) ] , é considerada constante dentro da área em estudo dois procedimentos
podem ser considerados, descritos a seguir.
Krigeagem por Indicação Simples
Neste caso a média por indicação é conhecida e constante, isto é:
E{I ( x ; z k )} = F ( z k ) (4.8)

e o preditor linear (4.6) é então rescrito,


n (u )
 n( x ) 
F̂KS ( x; z k | (n)) = ∑ λαKS ( x; z k )I ( xα ; z k ) + 1 − ∑ λαKS ( x; z k ) F ( z k ) (4.9)
α =1  α =1 
onde os pesos λαKS ( x , z k ) são determinados através do sistema de krigeagem
simples.
n (u )

∑ λβ ( x; z )C (hαβ ; z ) = C (hα ; z )
KS
k I k I k ∀α = 1,2,...,n( x ) (4.10)
β =1

onde hαβ é o vetor de separação definido pelas posições xα e x β , hα é o vetor


definido entre as posições xα , e a posição a ser estimada x0 , C I hαβ ; z k ) é a (
Análise Espacial de Dados Geográficos 4-6
autocovariância definida por hαβ e C I (hα ; z k ) é a autocovariância definida por
hα em z = z k . As autocovariâncias são determinadas pelo modelo de variografia
teórico definido pelo conjunto I para z = z k .

Krigeagem por Indicação Ordinária


A krigeagem por indicação ordinária permite considerar flutuações locais da
média limitando seu domínio de estacionariedade a vizinhança local W ( x )

E {I ( x ; z k )} = constante mas desconhecida para ∀x ∈W ( x )

E {I ( x ; z k )} = F̂ ( x ; z k ) estimado no domínio W ( x )

O estimador de krigeagem por indicação ordinária tem a seguinte expressão:


n( x )
 n( x ) 
F̂KS ( x; z k | (n)) = ∑ λαKS ( x; zk )I ( xα ; z k ) + 1 − ∑ λαKS ( x; z k ) F̂ ( x ; z k ) (4.11)
α =1  α =1 

sendo que os pesos λαKS ( x , z k ) são obtidos pela solução do seguinte sistema de
equações de krigagem por indicação ordinária:
n ( x ) KO
∑ λ β ( x; z k )C I (hαβ ; z k ) + φ ( x; z k ) = C I (hα ; z k ) ∀α = 1,2,...,n(ξ )
 β =1
n ( x ) (4.12)
 λ KO ( x; z ) = 1
∑
β =1
β k

ρ
onde φ (x; zk ) é o multiplicador de Lagrange.

A krigagem por indicação, simples ou ordinária, fornece, para cada valor de


corte z k , a melhor estimativa da esperança condicional da VA I ( x , z k ) , Î ( x , z k ) .
Utilizando esta propriedade, e o teorema que estabelece que Î ( x , z k ) = F̂ ( x , z k )
pode-se calcular estimativas dos valores da fdpac de Z ( x ) para vários valores de
z = zk , pertencentes ao domínio de Z ( x ) . O conjunto dos valores das fdpac’s,
estimados nos valores de corte, é considerado uma aproximação discretizada da
fdpac real de Z ( x ) . Quanto maior a quantidade de valores de corte, melhor é a
aproximação. A aproximação é complementada pela definição de uma função de
ajuste para a distribuição, que deve ser utilizada para se inferir a fdpac para valores
diferentes dos valores de corte. Um ajuste linear é o mais simples de se definir,
porém funções de maior grau podem ser usadas.

Análise Espacial de Dados Geográficos 4-7


4.3.4 Correção dos Desvios de Ordem
A aproximação da função de distribuição apresenta alguns problemas,
conhecidos como desvios de relação de ordem, que devem ser corrigidos
automaticamente pelo procedimento. Os valores de probabilidades acumuladas
condicionadas, para cada valor de corte, são inferidos independentemente. Para que
esses valores de probabilidade constituam uma distribuição legítima, eles devem
verificar as seguintes relações de ordem:

( )
1. Os valores inferidos de F̂ x , z k (n ) devem satisfazer a seguinte relação
0 ≤ F ( x; z k | (n )) ≤ 1 ∀ z k , k = 1,..., K
*

( )
2. O valor estimado de F̂ x , z k (n ) não deve ser maior do que a F̂ x ; z k +1 (n ) ( )
quando zk ≤ zk +1 , ou seja F̂ ( x; z k | (n )) ≤ F̂ ( x; z k +1 | (n )) se z k ≤ z k +1

A primeira condição pode ser garantida quando todos os pesos do estimador


são positivos e somam 1. A krigeagem não garante que os pesos sejam todos
positivos. Por isso é possível a inferência de valores da fdpac fora do intervalo [0,1].
A solução para este problema é ajustar os valores estimados para as bordas, ou seja,
valores negativos são mapeados para 0 e valores maiores que 1, para 1. A segunda
condição é garantida com o uso de ponderadores positivos que somam 1, e com a
utilização dos mesmos pesos de estimação para todos os valores de corte, o que não
pode ser garantido pela krigeagem por indicação. Portanto, estas inconsistências
podem ocorrer e devem ser corrigidas. Um procedimento simples de correção é
verificar pares de fdac’s estimadas, em valores sucessivos de cortes, e ajustá-los para
o valor médio das duas, sempre que a relação de ordem,
F̂ ( x; z k | (n )) ≤ F̂ ( x; z k +1 | (n )) se z k ≤ z k +1 , não for satisfeita. A Figura 4-2 ilustra
os problemas e as soluções das 2 condições acima descritas.

Figura 4-2 Correção dos desvios de relação de ordem

Análise Espacial de Dados Geográficos 4-8


A Figura 4-3 e a Figura 4-4 que seguem buscam ilustrar as etapas descritas para
a obtenção do modelo de incerteza para um conjunto amostral tomado
conceitualmente como variáveis aleatórias.

Figura 4-3 Primeira etapa do processo de krigagem por Indicação

Figura 4-4 Segunda etapa do processo de krigagem por Indicação

Análise Espacial de Dados Geográficos 4-9


4.4 Estimativa de incertezas locais

( )
O conhecimento da fdpac, F x ; z k (n ) , em uma localização x, possibilita a
estimativa direta da incerteza, sobre o valor não conhecido z k ( x ) , independente da
escolha de um estimador para z k ( x ) . Vamos ver agora como a incerteza pode ser
estimada quando adotamos o enfoque por indicação aqui apresentado.

Intervalos de probabilidade
A incerteza pode ser estimada através de intervalos de valores do atributo. A
probabilidade de um valor z k ( x ) estar dentro de um intervalo (a,b] qualquer,
chamado intervalo de probabilidade, é computado como a diferença entre os valores
da fdpac para os limiares b e a, ou seja:
Prob{Z ( x ) ∈ (a,b ]| (n )} = F ( x ;b | (n )) − F ( x ; a | (n )) (4.13)

Um intervalo de probabilidade dado por Prob{Z ( x ) ∈ (a,b ]| (n )} = 0.7 , significa


que z ( x ) tem 70% de chance de estar dentro e, portanto, 30% de chance de estar
fora do intervalo (a, b]. Quando b = ∞ obtêm-se a probabilidade de se exceder um
limiar a, ou seja:
Prob{Z ( x ) ∈ (a,+ ∞]| (n )} = Prob{Z ( x ) > a | (n)} = 1 − F ( x ; a | (n )) (4.14)

Esta probabilidade é particularmente importante em aplicações ambientais


focadas em medir os riscos de se exceder limites regulatórios. Para exemplificar a
utilização dessas medidas de incerteza, numa situação real, considere o conjunto
amostral de altimetria de Canchim, apresentado na Figura 4-5. Esse conjunto
amostral foi utilizado como entrada para produção do mapa temático de altimetria
e do mapa de incertezas apresentados na Figura 4-6 (a) e (b), respectivamente.
A classificação apresentada no mapa da Figura 4-6(a) foi obtida a partir dos
modelos de distribuição probabilística inferidos pelo procedimento de krigeagem
por indicação condicionado às amostras de altimetria. Neste caso, foram definidas 3
faixas distintas de valores de altimetria, 3 classes, e para cada ponto desse mapa, as
probabilidades de pertinência a cada um dos intervalos de valores, definidos para as
classes, foram calculadas pela formulação apresentada na equação 4.13. Para
classificação de cada ponto do mapa temático de altimetria, utilizou-se o critério de
máxima probabilidade, ou seja, atribuiu-se, a cada ponto do mapa, a classe de maior
probabilidade de ocorrência nesse local. Os valores de incerteza apresentados na
Figura 4-6(b), mapa da direita, foram calculados a partir do valor da probabilidade
da classe que foi associada a cada ponto do mapa temático de altimetria gerado.
Assim, calculou-se a incerteza como:
Inc( x ) = 1 − Prob{z( x ) ∈ sk ( x ),k = 1, 2 ou 3} (4.15)

onde s k ( x ) é a classe atribuída a localização ( x ) .

Análise Espacial de Dados Geográficos 4-10


Figura 4-5 Distribuição espacial das amostras de altimetria na região de Canchim

0.5

E~F EÄF
0.0

Figura 4-6 Mapa temático de altimetria (a) e respectivas medidas de incerteza (b)

Análise Espacial de Dados Geográficos 4-11


Distância interquantil
Uma medida mais robusta de espalhamento é um intervalo interquantil. Por
exemplo, o intervalo interquartil, q R ( x ) é definido por:

q R ( x ) = q0.75 ( x ) − q 0.25 ( x ) = F −1 ( x ; 0.75 | (n )) − F −1 ( x; 0.25 | (n )) (4.16)


Para distribuições altamente assimétricas, uma medida mais robusta é o
intervalo interquantil, que é definido como a diferença entre dois quantis,
simétricos em relação a mediana. A partir da função de distribuição acumulada
condicionada inferida, F̂ ( x ; z (n )) , pode-se derivar vários intervalos de
probabilidade tais como o intervalo 95%, [q 0.025 ; q 0.975 ] , tal que:

Prob{Z ( x ) ∈ [q0.025 ; q0.975 ]| (n )} = 0.95 (4.17)

com q 0.025 e q 0.975 sendo os quantis relativos aos valores de probabilidade da fdpac
2,5% e 97.5%, ou seja, F ∗ ( x ; q0.025 (n ) ) = 0.025 , e F ∗ ( x ; q0.975 (n ) ) = 0.975 . Os
valores do atributo, referentes aos quantis, são estimados a partir da função de
ajuste e dos valores de corte usados na krigeagem por indicação. Um mapa de
incertezas obtido pelos valores de uma grade de intervalos interquartis, diferença
entre o primeiro e o terceiro quartil de altimetria, e estimados segundo a equação
4.16, está apresentado na Figura 4-7.

100.

5.05

Figura 4-7 Mapa de incertezas locais obtido a partir dos quartis, primeiro e terceiro, dos
modelos de distribuição probabilística locais inferidos pela krigagem por indicação

Análise Espacial de Dados Geográficos 4-12


Variância condicional
Uma medida importante de espalhamento de uma distribuição é a variância
condicional que mede os desvios da fdpac em torno da média da distribuição,
z z k (u ) . Diferente das medidas de incerteza anteriormente descritas, esta necessita
da estimação da média da distribuição, isto é, da definição desse estimador. É
possível obter-se uma estimativa da variância da distribuição condicionada, σ̂ 2 ( x ) ,
pela seguinte formulação:

(σˆ )( x ) = ∫ [z − z ( x )] dF ( x; z | (n ))
2 ∞

−∞
Zk
2

[ ][ ]
K +1 (4.18)
≈ ∑ z 'k − z Z k ( x ) F̂ ( x ; z k | (n )) − F̂ (u; z k −1 | (n ))
2

k =1

onde z z k é o valor da média da classe (z k −1 , z k ] .

A Figura 4-8 apresenta um mapa de variâncias para os valores de altimetria, da


região de Canchim, obtidas pela equação 4.18.

99.0

7.8

Figura 4-8 Mapa de incertezas locais obtido a partir das variâncias inferidas dos modelos de
distribuição probabilística construídos pela krigeagem por indicação.

Análise Espacial de Dados Geográficos 4-13


Entropia de Shannon
Uma medida de incerteza local, não relacionada a qualquer intervalo (a , b], é
dada pela medida de entropia da função de densidade de probabilidade local. Essa
medida é definida como:

∫ − [ln f (x ; z (n ))]⋅ f (x ; z (n ))dz



H (x) = (4.19)
−∞

onde f ( x ; z (n )) = ∂F ( x ; z (n )) ∂z é a função de distribuição de probabilidade. Na


prática a amplitude de variação de z é discretizada em K classes, que não se
interceptam, ( z k −1 , z k ], computando-se a probabilidade desses K intervalos como:

[
pk ( x ) = F̂ ( x; z k | (n )) − F̂ ( x ; z k −1 | (n )) ] (4.20)

A entropia para a distribuição condicional em x é computada como:


K
H ( x ) ≅ − ∑ [ln ( p k ( x ))] ⋅ pk ( x ) ≥ 0 , ∀p k ≠ 0
k =1

(4.21)

4.5 Estimadores Ótimos para as Superfícies Interpoladas

O processo inferencial visa calcular uma estimativa do valor de z ( x ) através de


um estimador que é caracterizado por uma determinada função dos dados. Esse
estimador, no que concerne aos objetivos do processo inferencial, deve minimizar
algum tipo de erro que se deseja evitar, maximizando os acertos de interesse. Por
essa razão, um estimador é dito ótimo quando minimiza perdas, isto é, uma
particular função dos erros inferenciais, L(ε ) , onde ε = z ( x ) − ẑ ( x ) . Entretanto,
minimizar L(ε ) significa conhecer z ( x ) , que é desconhecido. Portanto, a idéia é
utilizar o modelo de incerteza definido para determinar a perda esperada, E[L(ε )] .

E[L(ε )] = E{L(ε ( x ))(n )}


+∞
= ∫ L(ε ( x )) dF ( x , z (n ))
(4.22)

−∞

Na prática, a seguinte aproximação é utilizada

[ ]
K +1
E[L(ε )] ≅ ∑ L( ẑ ( x ) − z k ) F̂ ( x , z k (n )) − F̂ ( x , z k −1 (n )) (4.23)
k =1

Assim sendo a determinação de estimativas ótimas se processa em duas etapas:


1. A incerteza sobre o valor desconhecido z ( x ) é inicialmente modelada pela
(
sua fdpac F̂ x , z k (n ) ; )

Análise Espacial de Dados Geográficos 4-14


2. Desse modelo uma estimativa de ẑ ( x ) é obtida tal que minimiza E[L(ε )] .

Estimativa do valor esperado


A estimativa do valor esperado para cada valor espacial da distribuição é
realizada a partir do de mínimos quadrados onde L[ε (u )] = [ε (u )]2 . Mostra-se que
essa função é minimizada quando z é o valor esperado, ẑ ( x ) = z E ( x ) . A estimativa
do valor esperado, ẑ E ( x ) = E {Z ( x )} onde:

E[Z ( x )] = ∫ z ⋅ f ( x ; z | (n ))dz = ∫ z ⋅ dF ( x ; z | (n ))
∞ ∞
(4.24)
−∞ −∞

é obtida pela função de densidade de probabilidade condicionada as n amostras,

f ( x , z k (n )) , e a partir dos K valores de corte, z k , pela aproximação:

[ ]
K +1
E[Z ( x )] = ∫ z ⋅ dF ( x ; z | (n )) ≈ ∑ z k F̂ ( x ; z k (n )) − F̂ ( x ; z k −1 (n ))

(4.25)
−∞
k =1

A estimativa do valor esperado como definida em (4.25) e aquela obtida por


krigagem linear são ambas ótimas no sentido de minimizar variâncias inferenciais,
entretanto produzem resultados diferentes. São diferentes porque, no caso do
enfoque aqui adotado, derivam de uma fdpac que depende dos valores dos dados.

Estimativa da mediana

O estimador de mínimos quadrados não é a única função de otimização de


erros possível. Uma outra função L(ε ( x )) pode também ser considerada. Podemos
tomá-la como sendo dada pelo valor absoluto dos erros estimados L(ε ( x )) = ε ( x ) | .
Mostra-se que o valor de z que minimiza E [ L(ε ( x )) ] , quando L(ε ( x )) é o
modulo de ε ( x ) , é a mediana da distribuição q0.5 ( x ) , definida como:

q0.5 ( x ) = F −1 ( x; 0.5 | (n )) (4.26)

A mediana é inferida aplicando-se a função de ajuste da distribuição sobre os


valores de corte com probabilidades acumuladas vizinhas ao valor 0.5. Para
distribuições com alto grau de assimetria, a mediana é um estimador mais robusto
do que a média. Os mapas de média e mediana, dos dados de altimetria de
Canchim, estão mostrados na Figura 4-9.

Análise Espacial de Dados Geográficos 4-15


Estimativa de quantis

A função de perda considerada nos dois estimadores anteriormente definidos


não discriminava as diferenças de impacto dos erros de sub-estimação ou sobre-
estimação. Entretanto, existem situações, como a descrita no início desse capítulo
(vide Seção 4.1), em que cada um desses erros produz diferentes impactos, e essas
diferenças devem ser também consideradas no processo inferencial. Assim, funções
de perdas assimétricas devem ser utilizadas

w1 ⋅ ε ( x ) se ε ( x ) ≥ 0 sobrestima do
L[ε ( x )] =  (4.27)
w2 ⋅ ε ( x ) se ε ( x ) < 0 subestimado )

onde w1 e w2 são parâmetros não negativos, e medem o relativo impacto de sub


ou sobre estimar. O estimador que minimiza essa função L(ε ( x )) é chamado de p-
quantil, e definido como:
ẑ q = F −1 ( x ; p (n )) = q p ( x ) (4.28)

w2
onde p =
w1 + w 2

894.0 894.0

695.6 695.6

Figura 4-9 Mapas de média (a) e mediana (b) inferidos pelo procedimento por indicação,
para os dados de altimetria da região de Canchim.

Análise Espacial de Dados Geográficos 4-16


Considerando o exemplo de aplicação apresentado na introdução desse
capítulo, seja w1 o impacto de sobre-estimar um determinado nutriente no solo, e
w2 o impacto de subestimar este mesmo nutriente. Vamos supor que se deseja
estimar z ( x ) de forma a reduzir o risco de comprometimento da produção, que é
motivado pelos erros de sobre-estimação. Dessa forma, w1 > w2 e p < 0.5 , ou seja,
um estimador ótimo seria um quantil menor do que a mediana, onde p = 0.5 . Ou
ainda, se w1 = 0.9 e w2 = 0.1 , p = 0.1 . A estimativa ótima seria considerando o
quantil de 10%.

4.6 Incertezas locais para atributos Categóricos

O enfoque por indicação, semelhante àquele aplicado aos dados com atributos
numéricos, pode ser também aplicado a dados com atributos categóricos, também
chamados dados temáticos. O dado categórico é aqui considerado como o dado
cujo atributo é discreto e sem ordenação, para o qual não é possível um cálculo de
distribuições acumuladas, a menos que se defina uma ordenação para os mesmos.
Um exemplo típico de dados categóricos é o atributo textura do solo, cujas classes
são derivadas de atributos granulométricos do solo. Outros exemplos podem ser:
tipos de rochas, classes de solo, etc. A metodologia geoestatística, aqui apresentada,
utilizada para espacialização de dados categóricos, baseia-se na krigeagem por
indicação e, equivale a um processo de classificação de dados categóricos a partir de
amostras individuais. Os principais conceitos abordados aqui são exemplificados a
partir do mesmo conjunto de dados coletados na região de Canchim (vide Seção
3.4, Figura 4-10 e Tabela 4-2).

O Enfoque por Indicação para Atributos Categóricos


Considere-se um dado espacial cujo atributo é categórico, podendo assumir K
classes, ou estados diferentes, s k , k = 1,..., K . Para cada posição ( x ) do espaço, o
dado categórico pode ser representado por uma variável aleatória S ( x ) que pode
assumir s k estados, cada um associado a uma probabilidade de ocorrência. Os
procedimentos por indicação para atributos categóricos baseiam-se na modelagem
da função de distribuição de probabilidade condicionada, (fdpc), isto é, a
modelagem da distribuição condicionada aos n dados amostrados, p( x; s k | (n )) ,
que é definida como:
p( x; s k | (n )) = Prob{S ( x ) = s k | (n )} (4.29)

A p( x; s k | (n )) modela a incerteza da variável aleatória S no ponto ( x ) e, uma


vez estimada, essa função de distribuição de probabilidade pode ser utilizada para:
• classificar o atributo em posições não conhecidas;

Análise Espacial de Dados Geográficos 4-17


• modelar a incerteza das classificações efetuadas.
Pela metodologia por indicação, a definição da fdpc depende, inicialmente, da
definição de um conjunto de valores de cortes para a variável em questão. Para um
conjunto de amostras de uma variável aleatória categórica qualquer, o número de
cortes K é definido pela quantidade de classes que essa variável pode assumir no seu
domínio. Neste caso, a codificação por indicação, se processa em valor de cortes
s k , e gera um conjunto amostral por indicação i ( x; s k ) do tipo:

1, se s ( x ) = s k
i ( x; s k ) =  (4.30)
0, se s ( x ) ≠ s k

A codificação por indicação é aplicada sobre todo conjunto amostral criando,


para cada corte s k , um conjunto amostral por indicação, I ( x; s k | (n )) , cujos valores
são 0 ou 1. Cada probabilidade condicional p( x; s k | (n )) é, também, a esperança
condicional da variável aleatória por indicação I ( x; s k | (n )) , a saber:

p( x; s k | (n )) = E{I ( x ; s k (n ))} (4.31)

onde I ( x; s k ) = 1 se S ( x ) = s k , e 0 (zero) caso contrário .

Assim, a fdpc da variável categórica S ( x ) pode ser modelada usando-se um


enfoque por indicação, semelhante àquele aplicado às variáveis de natureza
contínua. Para cada um dos K conjuntos I ( x; s k | (n )) , define-se um variograma
experimental, ajustado a posteriori por um modelo teórico, que busca representar a
variabilidade espacial do conjunto de dados codificados por indicação sendo
considerados. Cada modelo de variograma teórico, em conjunto com as amostras,
codificadas por indicação, é usado para se estimar o valor da probabilidade
condicional [ p( x; sk | (n ))]* . O conjunto dessas probabilidades estimadas,
considerando-se os K valores de corte, determina uma aproximação discreta da fdpc
de S ( x ) . Essa fdpc deve, ainda, sofrer uma correção dos desvios de relação de
ordem para se garantir as relações:
[ p( x; sk | (n))]* ∈ [0,1] k = 1,...,K (4.32)
K

∑ [ p(u; s | (n ))]* = 1
k =1
k (4.33)

ou seja, cada valor deve estar no intervalo [0,1] e a soma total desses valores deve
ser igual a1.

Análise Espacial de Dados Geográficos 4-18


4.7 Classificadores para Atributos Categóricos

No enfoque por indicação, os classificadores locais para atributos categóricos


são definidos a partir da distribuição de probabilidade inferida para cada uma das
s k classes de S ( x ) . Em geral, esse classificador é implementado segundo um
estimador de moda, que determina o valor de S ( x ) como sendo a classe com a
maior probabilidade inferida em ( x ) , ou seja:

S ∗ ( x ) = sk max ( x ) = sk ( x ) sse [ p( x ; sk | (n ))] > [ p( x; si | (n))] ∀i = 1,...,K e k ≠ i


∗ ∗

(4.34)
Uma variante do classificador de moda considera também a reprodução das
proporções globais definidas a priori. O mapa da Figura 4-11 mostra o resultado de
uma classificação, pelo estimador de moda, a partir de um conjunto de amostras do
atributo textura do solo.

4.8 Medidas de incerteza para atributos Categóricos

Apresentam-se, a seguir, dois procedimentos de medida de incertezas para


atributos categóricos, a incerteza do classificador de moda e a incerteza por
entropia de Shannon.

A Incerteza do classificador de moda

A incerteza local Inc( x ) pode ser definida como 1(um) menos a maior
probabilidade condicional, estimada em x para as diversas classes de corte sk :

Inc( x ) = 1 − [ p( x ; sk max ( x ) | (n ))]



(4.35)

A Figura 4-12 mostra o mapa de incertezas locais do classificador de moda usado


na geração do mapa da Figura 4-11. Analisando-se a classificação apresentada na
Figura 4-11 e o mapa de incertezas da Figura 4-12, observa-se que este último mostra
um campo com variação proporcional ao comportamento do atributo na região.
Nas regiões de transição entre as classes, os valores de incerteza por moda
aumentam, com os valores mais baixos longe das transições, como ocorre
naturalmente com muitas propriedades naturais nas proximidades de zonas de
fronteira.

Análise Espacial de Dados Geográficos 4-19


Arenoso
Médio
Argiloso
Muito

Figura 4-11 Mapa de valores de textura do solo inferidos, pelo valor de moda, a partir do
procedimento de krigeagem por indicação

0.71

0.0

Figura 4-12 Mapa de incerteza por moda estimado a partir do procedimento de krigeagem por
indicação usado para inferir o mapa da Figura 4-11

Análise Espacial de Dados Geográficos 4-20


Incerteza por entropia de Shannon
Outra medida da incerteza local Inc(x) é a entropia de Shannon das
probabilidades condicionais das diversas classes de corte sk , definida como:
K
Inc ( x ) = H ( x ) ≅ − ∑ ln[ p ( x ; s k | (n ))] [ p ( x ; s k | (n ))] ≥ 0
∗ ∗
(4.36)
k =1

A entropia de Shannon é maximizada para distribuições uniformes, ou seja,


quando as probabilidades de ocorrência das classes se igualam. Assim, os valores de
incerteza por entropia de Shannon são maiores onde existe uma confusão maior
entre as classes consideradas. Isto pode ser observado no mapa de incertezas da
Figura 4-13.

1.38

0.0

Figura 4-13 Mapa de incerteza por entropia de Shannon estimado a partir do procedimento
de krigeagem por indicação usado para inferir o mapa da Figura 4-11

Comparando-se os mapas das Figura 4-12 e Figura 4-13, pode-se analisar as


diferenças existentes entre o mapa de incertezas por moda e o mapa de incertezas
por entropia. As diferenças são mais aparentes nas regiões onde várias classes se
confundem. Este é um resultado esperado, uma vez que, nestas regiões a

Análise Espacial de Dados Geográficos 4-21


distribuição de probabilidade das variáveis aleatórias está mais próxima de uma
distribuição uniforme, quando então a incerteza medida pela entropia tem seus
valores maximizados. A incerteza por moda mostra um crescimento a partir da
parte central de uma classe em direção as zonas de transição. Os valores máximos
de incerteza por moda aparecem nas bordas entre as classes e, não têm influência do
número de classes próximos as bordas. Dependendo da aplicação, o especialista é
responsável por decidir sobre qual medida de incerteza estará trabalhando. Quando
a confusão entre classes é importante deve-se optar pela incerteza por entropia.
Caso o interesse seja somente nas transições entre as classes, a incerteza por moda
deve ser priorizada.

Conclusões
Apresentamos neste capítulo a formalização do procedimentos geoestatísticos
da krigagem por indicação. Estes procedimentos servem não apenas para produzir
uma predição de valores sobre uma superfície, mas essencialmente como uma
poderosa ferramenta para produzir modelos de incertezas locais para dados
geográficos que compartilham uma base de informações Estes dados são sempre
usados em conjunto com outros para produzir novas informações, através de
operações e transformações. Os procedimentos da geoestatística, em seu enfoque
por indicação, nos permitem produzir informações espaciais qualificadas por uma
métrica de “confiança” nas informações representadas naqueles suportes, os mapas.
Temos a possibilidade concreta de produzir e operar com os mapas e suas “barras
de erro”. Podemos ainda ressaltar as seguintes características, específicas do
procedimento de krigagem por indicação:
• a krigagem por indicação é não paramétrica. Não considera nenhum tipo de
distribuição de probabilidade a priori para a variável aleatória. Ao invés disso,
ela possibilita a construção de uma aproximação discretizada da fdpac. Os
valores de probabilidades discretizados podem ser usados diretamente para se
estimar valores característicos da distribuição, tais como: quantis, valor
esperado e variância. Portanto, ela não se restringe a modelagem de atributos
com distribuições simétricas como, por exemplo, a gaussiana;
• a krigagem por indicação fornece uma metodologia única para espacialização,
com estimativa de incertezas, para atributos espaciais tanto de natureza temática
quanto numérica;
• diferentemente da krigagem linear, que estima a variância do erro de estimação
em função do estimador e da distribuição geométrica das amostras, a krigagem
por indicação possibilita a estimativa de incertezas, utilizando a função de
distribuição acumulada condicionada da VA que representa o atributo,
independentemente do estimador;

Análise Espacial de Dados Geográficos 4-22


• a krigagem por indicação pode ser usada para modelar atributos com alta
variabilidade espacial sem a necessidade de se filtrar amostras cujos valores
estão muito distantes de uma tendência (“outliers”);
• a krigagem por indicação permite melhorar a qualidade de estimação com o uso
de amostras indiretas, retiradas de fontes auxiliares, que são acrescidas ao
conjunto amostral do atributo, as amostras diretas.
No entanto, os procedimentos de krigagem por indicação apresentam também
alguns problemas, além das probabilidades negativas e funções acumuladas inválidas
já mencionados. Este procedimento requer, do especialista, um alto grau de
interatividade para a definição da quantidade e dos valores de corte a serem
utilizados. Também, exige que seja definido um variograma para cada valor de
corte considerado.
A ferramenta geoestatística de krigagem é utilizada para inferir valores de
atributos, em posições não observadas, e também incertezas associadas aos valores
inferidos. Mostrou-se que a krigagem por indicação tem aplicação mais geral,
principalmente porque não supõe nenhum tipo de distribuição de probabilidade a
priori e pode ser usado com atributos numéricos e temáticos. Por exemplo, a
krigagem por indicação permite a inferência de valores temáticos e, portanto, pode
ser considerada um classificador estocástico, que fornece estimativas de incertezas
associadas aos valores das classes atribuídos a cada ponto do espaço. Apresentou-se,
ainda, alternativas para estimativas de incertezas que devem ser escolhidas de
acordo com a natureza do atributo, que está sendo modelado, e também de acordo
com os objetivos de uma aplicação.
Salienta-se que os procedimentos geoestatísticos por indicação incluem
também os simuladores estocásticos, que não foram abordados neste capítulo.
Também não foi abordado o uso de informação indireta para a melhora das
inferências. Estes tópicos são de extrema relevância para o contexto do uso efetivo
da geoestatística em análise de dados geográficos e deverão ser considerados em
futuras edições. Mesmo no método por indicação algumas limitações da krigeagem
permanecem – uso dos dados para estimar o variograma e predizer a incerteza,
deficiência na extrapolação, ou seja, avaliar a incerteza fora dos dados. Novas
generalizações começam a surgir, tomando como base a teoria dos campos
aleatórios espaço-temporais.

Análise Espacial de Dados Geográficos 4-23


REFERÊNCIAS BIBLIOGRÁFICAS

A estrutura teórica da geoestatística em seu enfoque por indicação está bem


apresentada em Goovaerts (1997) e em Isaaks e Srivastava (1989). Algoritimos
implementados e explicações didáticas sobre como operar a Krigeagem por
indicação pode ser encontrada no livro de Deutsch e Journel (1992). Com relação à
integração entre geoestatística e SIGs e modelagem e tratamento de incertezas em
SIG, o leitor deve referir-se a Felgueiras C. A. (1999), Felgueiras et al (1999) e
Heuvelink (1998). As questões sobre medidas de entropia podem ser apreciadas no
clássico Shannon, and Weaver (1949). Para uma discussão sobre diferentes medidas
de incerteza no enfoque por indicação veja Soares(1992). Referente a modelagem
espaço-temporal, deve-se consultar o artigo de Kyriakidis e Journel (1999) e o livro
do George Christakos (2000). Referências básicas sobre os dados da Fazenda
Canchim podem ser encontrados em Calderano Filho et al. (1996). Estes dados
também estão disponíveis no site do livro (www.dpi.inpe.br/gilberto/livro/analise).

Calderano Filho, B.; Fonseca, O. O. M.; Santos, H. G. e Lemos A. L..


Levantamento Semidetalhado dos Solos da Fazenda Canchim São Carlos - SP. Rio
de Janeiro, EMBRAPA- CNPS, 1996. 261p.
Christakos, G. Modern Spatiotemporal Geostatistics; IAMG Studies no. 6, Oxford
University Press, 2000
.Deutsch e Journel (1992). GSLIB: Geostatistical Software Library and user’s guide.
New York, Oxford University Press, 1992. 339p.
Felgueiras C. A. Modelagem Ambiental com Tratamento de Incertezas em Sistemas
de Informação Geográfica: O Paradigma Geoestatístico por Indicação. Tese
(Doutorado em Computação Aplicada) – Instituto Nacional de Pesquisas Espaciais,
São José dos Campos, Publicado em http://www.dpi.inpe.br/teses/carlos/, 1999.
Felgueiras C. A., Monteiro A. M. V., Fuks S. D. and E. C. G. Camargo. Inferências
e Estimativas de Incertezas Utilizando Técnicas de Krigeagem Não Linear [CD-
ROM]. In: V Congresso e Feira para Usuários de Geoprocessamento da América
Latina, 7, Salvador, 1999. Anais. Bahia, GisBrasil’99. Seção de Palestras Técnico-
Científicas.
Goovaerts, P. Geostatistics for Natural Resources Evaluation. New York, Oxford
University Press, 1997. 481p.;
Isaaks E. H. and Srivastava R. M. An Introduction to Applied Geostatistics, Oxford
University Press, 1989. 560p.
Kyriakidis, P. C. e Journel, A. G. Geostatistical Space-Time Models: A Review.
Mathematical Geology, Vol. 31, No. 6, 1999

Análise Espacial de Dados Geográficos 4-24


Heuvelink G. B. M. Error Propagation in Environmental Modeling with GIS,
Bristol, Taylor and Francis Inc, 1998.
Shannon, C. E. e Weaver, W. The Mathematical Theory of Communication.
Urbana, The University of Illinois Press, 1949. 117p.
Soares, A. Geoestatistical Estimation of Multi-Phase Structures. Mathematical
Geology, 24(2):140-160, 1992.

Análise Espacial de Dados Geográficos 4-25


5 ANÁLISE ESPACIAL DE ÁREAS

Gilberto Câmara
Marilia Sá Carvalho
Oswaldo Gonçalves Cruz
Virginia Correa

5.1 INTRODUÇÃO

Este capítulo discute métodos de análise de dados espaciais cuja


localização está associada a áreas delimitadas por polígonos. Este caso ocorre
com muita freqüência quando lidamos com eventos agregados por
municípios, bairros ou setores censitários, onde não se dispõe da localização
exata dos eventos, mas de um valor por área. Alguns desses indicadores são
contagens, como é o caso da maior parte das variáveis coletadas no censo:
por exemplo, o IBGE fornece, para cada setor censitário, o número de chefes
de família em cada uma das faixas de renda consideradas. Diversos
indicadores de saúde também são deste tipo: o Ministério e Secretarias de
Saúde organizam e disponibilizam dados de óbitos, partos, doenças
transmissíveis por município. Utilizando duas contagens – óbitos e
população, por ex. – taxas de densidade de ocorrência, como taxas de
mortalidade ou incidência são estimados. Outros indicadores bastante úteis
são: (a) proporções, como percentual de adultos analfabetos; (b) médias,
como renda média do chefe da família por setor censitário; e (c) medianas,
como mediana etária em homens.
A forma usual de apresentação de dados agregados por áreas é o uso
de mapas coloridos com o padrão espacial do fenômeno. A Figura 5-1
mostra a distribuição espacial do índice de exclusão social1 para os 96
distritos da cidade de São Paulo, para os dados do censo de 1991. Verifica-
se que 2/3 dos 96 distritos de São Paulo estavam abaixo dos índices
mínimos de inclusão social em 1991. Uma forte polarização centro-periferia
é claramente perceptível no mapa, que apresenta duas grandes regiões de
exclusão social, as zonas Sul e Leste da cidade. Na zona Leste, nota-se um
gradiente do índice de exclusão/inclusão social, que piora à medida que nos
afastamos do centro. Na zona Sul, a descontinuidade do índice é mais

1
O índice de exclusão/inclusão social é uma medida agregada das disparidades
socioeconômicas, que varia de –1 a +1, onde o valor 0 (zero) indica o um nível básico de
inclusão social.
abrupta, e verificamos a existência de distritos com altos índices de
exclusão/inclusão social próximos a áreas excluídas.

==

Figura 5-1– Índice de Exclusão/Inclusão Social dos Bairros da Cidade de São Paulo para os
dados de 1991, com 96 distritos agrupados por sextis.
Grande parte dos usuários limita seu uso de SIG a essas operações de
visualização, tirando conclusões intuitivas. Mas é possível ir muito além.
Quando visualizamos um padrão espacial, é muito útil traduzi-lo em
considerações objetivas: o padrão que observamos é aleatório ou apresenta
uma agregação definida? Esta distribuição pode ser associada a causas
mensuráveis? Os valores observados são suficientes para analisar o fenômeno
espacial a ser estudado? Existem agrupamentos de áreas com padrões
diferenciados dentro da região de estudo?
Para abordar estas questões, este capítulo apresenta um conjunto de
técnicas de análise espacial de dados agregados por áreas. O primeiro passo é
escolher o modelo inferencial a ser utilizado. A hipótese mais comum é supor
que as áreas são diferenciadas, e que cada uma delas possui uma “identidade”
própria. Do ponto de vista estatístico, isto implica em que cada área
apresenta uma distribuição de probabilidade distinta das demais, o chamado
modelo espacial discreto. A alternativa é supor que o fenômeno estudado
apresenta continuidade espacial, formando uma superfície, o chamado
modelo espacial contínuo estudado no capítulo anterior. Neste caso, as áreas
são consideradas apenas um suporte para coleta de dados, e o modelo
inferencial desconsidera os limites de cada área. A produção de superfícies a
partir de dados de área será discutida no final deste capítulo.
A questão de agregação de contagens em áreas levanta ainda problemas
conceituais importantes: Pode-se estimar comportamentos individuais a
partir de dados agregados? Em que medida a comportamento dos

A l ld d f
agregados reflete mais do que a soma dos indivíduos? Qual o erro cometido
ao estimar indicadores onde as contagens são muito pequenas? Neste
capítulo, após a apresentação dos modelos adequados à análise de dados
agregados por áreas serão abordados os conceitos básicos da análise
espacial, para dados agregados por área.

5.2 MODELOS DE DISTRIBUIÇÃO DE DADOS EM ÁREAS

O modelo de distribuição mais utilizado para dados de área é o modelo


de variação espacial discreta. Considere-se a existência de um processo
estocástico Z i , i = 1,..., n , onde Z i é a realização do processo espacial na
área i e n é o total de áreas Ai. O objetivo principal da análise é construir
uma aproximação para a distribuição conjunta de variáveis aleatórias
Z = {Z 1 , ..., Z n } , estimando sua distribuição.
De forma semelhante ao modelo de eventos pontuais discutido no
capítulo 2, considere-se Z i como a variável aleatória que descreve a
contagem, indicador ou taxa associada à área Ai. Dispomos de um valor
observado zi , correspondente à contagem na i-ésima área. A hipótese mais
comum é supor que a variável aleatória Z i , que descreve o número de
ocorrências em cada área pode ser associada a uma distribuição de
probabilidade de Poisson. Tal hipótese justifica-se por ser esta a distribuição
estatística mais adequada a fenômenos que envolvem contagens de eventos,
como é o caso na maioria dos dados agregados por áreas. Evidentemente
outras distribuições podem ser mais adequadas, dependendo da variável a ser
analisada. Taxas podem ser modeladas utilizando a distribuição normal, pois
ainda que esta admita valores negativos, evidentemente impossíveis neste
tipo de indicador, as propriedades da distribuição normal podem ser
adequadas.
A alternativa à hipótese de variação espacial discreta é supor que os
dados apresentam variação espacial contínua. Considera-se um processo
estocástico { Z ( x ), x ∈ A, A ⊂ ℜ 2 } , cujos valores podem ser conhecidos em
todos os pontos da área de estudo. Neste caso, as contagens agregadas
devem ser transformadas em taxas ou indicadores, pois o que varia
continuamente no espaço são as taxas e não as contagens. A estimação deste
processo estocástico pode ser feita como descrito nos capítulos 3 e 4 deste
livro. O uso de modelos espaciais contínuos será discutido na seção 5.8.

A l ld d f
5.3 PROBLEMAS DE ESCALA E A RELAÇÃO ÁREA-INDIVÍDUO

Um dos problemas básicos com dados agregados por área é que, para
uma mesma população estudada, a definição espacial das fronteiras das
áreas afeta os resultados obtidos. As estimativas obtidas dentro de um
sistema de unidades de área são função das diversas maneiras que estas
unidades podem ser agrupadas; pode-se obter resultados diferentes
simplesmente alterando as fronteiras destas zonas. Este problema é
conhecido como “problema da unidade de área modificável”.
Em muitos dos estudos envolvendo dados de área, o dado agregado é a
única fonte disponível, porém o objeto de estudo diz respeito a
características e relacionamentos individuais. Alguns destes estudos
procuram estabelecer relações de causa-efeito entre diferentes medidas,
como o uso de modelos de regressão; um exemplo clássico é correlacionar
anos de estudo do chefe de família e sua renda, que usualmente apresenta
forte correlação. Note-se, no entanto, que devido aos efeitos de escala e de
agregação de áreas, os coeficientes de correlação podem ser inteiramente
diferentes no indivíduo e nas áreas. Este fenômeno, nas ciências sociais e na
epidemiologia, é chamado de “falácia ecológica”.
Considere um conjunto de indivíduos onde são medidas duas
características de cada um dos indivíduos, conforme estimado na Figura
5-2. Uma regressão considerando todos os indivíduos (linha negra do
quadro à esquerda) resulta em coeficiente positivo de 0,1469. Esses
indivíduos pertencem a grupos distintos, separando cada grupo conforme o
atributo cor, obtém-se correlação negativa, variando entre –0,5 e –0,8.
Utilizando as médias de cada grupo (linha negra do quadro à direita), o
coeficiente vai a 0,99. É importante observar que cada modelo mede um
aspecto diferente e que não há modelo correto. No primeiro caso, pode-se
dizer que sem informações que permitam separar os indivíduos nos grupos
coloridos, as variáveis se relacionam positivamente. No último exemplo, o
interesse do estudo é o efeito da variação na média de uma variável sobre a
média da outra, nos grupos. São perguntas diferentes, e modelos diferentes.

A l ld d f
Figura 5-2 – Modelos de regressão: indivíduos, indivíduos em estratos diferentes e grupos.
Para ilustrar o problema das mudanças de unidade de análise, estudou-
se os dados de censo de Belo Horizonte para o ano de 1991, em duas
escalas: os setores censitários e as unidades de planejamento (UP),
mostradas na Figura 5-2. Os setores censitários foram utilizados pelo IBGE
para o censo de 1991, e as unidades de planejamento correspondem a
agregamentos de áreas utilizados pela prefeitura de Belo Horizonte.

Figura 5-3. Setores censitários (à esquerda) e Unidades de Planejamento (à direita) para o


município de Belo Horizonte.
A partir das variáveis do censo, foram computadas 1000 correlações
entre pares de variáveis, tanto por setor censitário como por UP. Por
exemplo, tomou-se as variáveis “número de chefes de família com
rendimento entre 0,5 e 1 salário mínimo” e “número de chefes de família
com 1 a 3 anos de estudo” e computou-se a correlação para o caso de
setores censitários (0,79) e para o caso de UP (0,96). Os resultados,
mostrados na q~ÄÉä~=RJN, indicam que as correlações nos setores censitários
são significativamente menores que as correlações por unidades de
planejamento. Nada menos que 773 correlações são menores para os

A l ld d f
setores censitários que para as UPs. Apenas 40 (4%) tem o comportamento
oposto. Em algumas situações, ocorre inclusive mudança de sinal, isto é,
variáveis correlacionadas negativamente no nível dos setores censitários
passam a ser correlacionadas positivamente. Verifica-se que a redução de
escala (áreas maiores) tende a homogeneizar os dados, reduzir a flutuação
aleatória e reforçar correlações que, assim, aparentam ser mais fortes que
em áreas menores.
Os resultados acima indicam que não se pode afirmar que qualquer
escala seja a “certa”, mas apenas qual dos modelos melhor serve ao que se
deseja esclarecer: correlações mais fracas e maior flutuação aleatória, porém
com mais homogeneidade interna, ou mais fortes com o viés ocasionado
por desconsiderar a dispersão e a heterogeneidade em torno da média nas
grande áreas. Como regra geral, quanto mais desagregado o dado, maior a
flexibilidade na escolha de modelos; pois agregar em regiões maiores é fácil,
mas desagregar impossível.

Tabela 5-1
CORRELAÇÕES ENTRE PARES DE VARIÁVEIS SEGUNDO
DIFERENTES UNIDADES DE ÁREAS – SETOR CENSITÁRIO E UNIDADE DE
PLANEJAMENTO - PARA O CENSO DE 1991 EM BELO HORIZONTE
Correlações por Unidade de Planejamento

-0,4/-0,2 -0,2/0,0 0,0/0,2 0,2/0,4 0,4/0,6 0,6/0,8 0,8/1,0 Pares

-0,8/-0,6 0 0 1 1 1 0 2 5

-0,6/-0,4 2 11 7 4 2 7 0 33
Correlação por Setor Censitário

-0,4/-0,2 3 23 14 11 10 3 6 70

-0,2/0,0 3 5 9 27 34 13 21 112

0,0/0,2 0 1 2 42 75 32 55 207

0,2/0,4 0 2 0 17 44 50 68 181

0,4/0,6 0 2 3 1 10 42 110 168

0,6/0,8 0 0 2 7 8 9 75 101

0,8/1,0 0 0 0 4 4 3 112 123

Totais 8 45 38 114 187 159 449 1000

Na prática, por razões de confidencialidade, os dados individuais muito


raramente estão disponíveis. O que fazer então? Uma possibilidade é
trabalhar com os Uma possibilidade é trabalhar com os dadosna maior escala

A l ld d f
espacial possível, usualmente denominadas micro-áreas, por exemplo, setores
censitários. E utilizar técnicas de agregação ou de otimização combinatória
para obter regiões mais agregadas, mas que preservem o fenômeno estudado
da melhor forma possível. Deste modo, deve-se reconhecer que o problema
da escala é um efeito inerente aos dados agregados por áreas. Ele não pode
ser removido e não pode ser ignorado. Para minimizar seu impacto com
relação a esses estudos, deve-se procurar utilizar a melhor escala de
levantamento de dados disponível e utilizar técnicas que permitam tratar a
flutuação aleatória, sempre buscando critérios de agregação dos dados que
sejam consistentes com os objetivos do estudo.

5.4 ANÁLISE EXPLORATÓRIA

As técnicas de análise exploratória aplicadas a dados espaciais são


essenciais ao desenvolvimento das etapas da modelagem estatística espacial,
em geral sensível ao tipo de distribuição, à presença de valores extremos e à
ausência de estacionariedade. As técnicas empregadas são, em geral,
adaptações das ferramentas usuais. Assim, se na investigação de valores
extremos se utiliza ferramentas gráficas como histogramas ou boxplots, na
análise espacial é importante também investigar outliers não só no conjunto
dos dados mas também em relação aos vizinhos. Além disso, a não-
estacionariedade do processo espacial na região de estudo também deve ser
investigada, nos seus vários aspectos: variação na média (primeira ordem), na
variância e na covariância espacial.
Visualização de Dados
A forma mais simples e intuitiva de análise exploratória é a visualização
de valores extremos nos mapas. Vale ressaltar que o uso de diferentes pontos
de corte da variável induz a visualização de diferentes aspectos. Os SIGs
dispõem usualmente de três métodos de corte de variável: intervalos iguais,
percentis e desvios padrões. No caso de intervalos iguais, em que os valores
máximo e mínimo são divididos pelo número de classes. Se a variável tem
um distribuição muito concentrada de um lado, este corte deixa apenas um
número muito pequeno de áreas nas classes da perna mais longa da
distribuição; como resultado, a maior parte das áreas será alocada a uma ou
duas cores. O uso de percentis para definação de classes obriga a alocação
dos polígonos em quantidades iguais pelas cores; isto pode mascarar
diferenças significativas em valores extremos e dificultar a identificação de
áreas críticas. Finalmente, o uso de desvios padrões, no qual a distribuição da
variável é apresentada em gradações de cores diferentes para valores acima e
abaixo da média, faz a suposição da normalidade da distribuição da variável;
esta hipótese é pouco realista no caso de variáveis censitárias em países de

A l ld d f
grande desigualdade social com o Brasil.” Em resumo, é parte importante da
análise exploratória experimentar diferentes pontos de corte da variável na
visualização dos mapas.
As diferentes técnicas de visualização estão ilustradas no exemplo a
seguir, em que mostramos a distribuição espacial do indicador que mede a
proporção de recém-natos que nasce em boas condições de saúde (Índice de
APGAR) para os bairros do Rio de Janeiro, no ano de 1994. Foram geradas
duas visualizações, ambas com 5 pontos de corte e 5 cores. Na Figura 5-4,
utilizou-se quintis; na Figura 5-5, cinco classes de igual tamanho. Como a
distribuição da variável não é simétrica, quando se divide em classes de
amplitudes iguais as de valores mais baixos (ou piores), assinaladas em
vermelho ficam reduzidas a poucas áreas, enquanto que na divisão em
quintis, por definição, um quinto das áreas ficará em cada classe. A pergunta
então é: o que se deseja mostrar? Certamente o responsável pela assistência
peri-natal da região não ficará satisfeito visualizando um quinto dos bairros
como sendo de “alto” risco. Por outro lado, como as áreas onde o índice é
mais baixo têm população pequena, a confiabilidade dos valores encontrados
pode ser efeito apenas da flutuação aleatória descrita anteriormente. Vale a
pena então olhar mapas? Claro que sim, da mesma forma como olhamos
histogramas e box-plots, e procurando sempre ver a distribuição utilizando
diferentes pontos de corte. Os SIGs em geral tem uma forma padrão, mas
dezenas de possibilidades podem e devem ser exploradas.

Figura 5-4– Distribuição do índice de APGAR, agrupada em quintis.

A l ld d f
Figura 5-5 - Distribuição do índice de APGAR, agrupada em classes de igual amplitude.
Outra questão interessante é a comparação de mapas. Supondo a
distribuição espacial de um indicador em diferentes anos: como visualizar a
evolução temporal? Certamente os pontos de corte da variável nos diferentes
períodos devem ser os mesmos. Observe na Figura 5-4 a evolução temporal
da mortalidade por homicídios para os triênios 79-81 e 90-92, no Estado do
Rio de Janeiro. A apresentação dos quintis da distribuição conjunta dos
indicadores permite visualizar bem o espalhamento desta “doença”.

Figura 5-6– Mortalidade por homicídios no Rio de Janeiro, para os triênios 79-81 e 80-92.

A l ld d f
Gráficos de Médias e Medianas
Os gráficos de médias e medianas segundo linhas e colunas permitem
explorar simultaneamente a presença de tendência (não-estacionariedade de
primeira ordem), e não-estacionariedade de segunda ordem, onde a variância
e a covariância entre vizinhos não se mantém constante. Para construir estes
gráficos, utiliza-se as coordenadas dos centróides das áreas, aproximando-as
para um espaçamento regular de forma a montar uma matriz. Calcula-se
então as médias e as medianas do indicador ao longo das linhas (eixo Leste-
Oeste) e colunas (eixo Norte-Sul) desta matriz. Esta técnica permite
identificar a flutuação das medidas ao longo de duas direções, sugerindo a
presença de valores discrepantes quando a diferença entre estas é grande, e a
tendência ao longo de uma direção quando os valores variam suavemente.


• •• • • ••
• •• • • • • • • • • • •
• • • •• • • • • •
••• • •
•• • • • • • • • •• • •• • • • •
• • • • • ••• • • •• • • •
• •• • • • • • •• •
o = Mediana
•• • •• ••••• • •
•• •• • • ••• ••• •• •••
S-N

• • • • • • • •• • • • • •
• • • • • • • •• • • • • •
• • • • • • • x = Média
•• • • • •• • •• • ••••
••• • • • •• • • •
• • • • • • • • •
• • • • • • • •• • • •
• •
• • •

L-O •

Eixo Norte-Sul Eixo Leste-Oeste


RENDA
x
o x
o
40

o
x
o x
ox x
ox o
xo
2

x x
o x o
xo ox
oox
30

ox
x x o ox x o
o o o x xo
RENDA

o x o
o x
o o xo x
linhas
1

x xo x x xx
o x
o ox
x o
20

o x o o ox
o x
o x ox x x o
o x x xx o o x
o x oo x xo x o
x x o
x o
x o
x o x x
0

o o xoox o
x o x ox
o oo o x o
10

x x x
o x oo
xo xx x x oo xx
x xoxx o x
o x
o
oo oxo o xx x x
o
-1

o o
x o x
o x
o
oo x
o
0

0 10 20 30 40 -1 0 1 2

colunas RENDA

ESCOLARIDADE
0.8

o
x x
o
40

o
xox o
x xo
o x
o x
xo o o xo
x o x o x xo o
o o
x x o o x
o o x x xoxx o
oxx
x
o
xx x oo o
0.6

o o
ESCOLARIDADE

x
x o
xo
30

xo o x ox
x o x o
x x o o
x o o x x o x
o
o o
x o
x o o x x
linhas

o xx x x
o o x
o
0.4

x o
20

x ox
xx
o
x x x oo x o
x x o x
o o
x o x o xoo
xx x o x x o
10

x x
o
o x x o
0.2

xx ox x ox o
o x o ox
x x
o
oo oo x
o x
o
o o
x o x
o x
o
0

0 10 20 30 40 0.2 0.4 0.6

colunas ESCOLARIDADE

Figura 5-7 – Médias e medianas para escolaridade e renda na Ilha do Governador.

A l ld d f
Na Figura 5-7, apresenta-se o resultado desta técnica aplicada a dois
indicadores socioeconômicos do censo 1991 – renda média do chefe da
família e proporção de chefes de família com escolaridade igual ou superior
ao segundo grau – para setores censitários da Ilha do Governador, no Rio de
Janeiro. Esta é composta por 225 setores censitários, cujos centróides estão
assinalados no primeiro quadro da figura: observe que nas extremidades do
“mapa” a quantidade de pontos é muito pequena, e, consequentemente,
qualquer medida nesta área será pouco robusta.
No eixo Norte-Sul (colunas) pode-se observar que a renda média do
chefe da família apresenta tendência variável, bem menor no centro da
região. A mesma coisa acontece para escolaridade, embora com maior
flutuação. No eixo Leste-Oeste (linhas), também parece haver algum
deslocamento para valores mais altos no sentido leste, mas o descolamento
de médias (x) e medianas (o) sugere a presença de valores extremos dos
indicadores. A variação na média dos indicadores na região está,
aparentemente, dividida entre as duas direções analisadas, e pode-se explorar
melhor a tendência através da rotação dos eixos de referência.
Análise de Autocorrelação Espacial
Outra etapa da análise exploratória visa identificar a estrutura de
correlação espacial que melhor descreva os dados. A idéia básica é estimar a
magnitude da autocorrelação espacial entre as áreas. Neste caso, as
ferramentas utilizadas são o índice global de Moran, o índice de Geary e o
variograma. Quando se dispõe de grande número de áreas, resultantes por
exemplo de escalas espaciais detalhadas, a natureza dos processos envolvidos
é tal que é muito provável a existência de diferentes regimes de correlação
espacial em diferentes sub-regiões. Para evidenciar estes regimes espaciais,
pode-se utilizar os indicadores locais de autocorrelação espacial e o mapa de
espalhamento de Moran, descritos também nesta seção. Todas estas
estatísticas dependem da definição de vizinhança adotada, discutida a seguir.
Matrizes de Proximidade Espacial
Para estimar a variabilidade espacial de dados de área, uma ferramenta
básica é a matriz de proximidade espacial, também chamada matriz de
vizinhança. Dado um conjunto de n áreas {A1,..,An}, construímos a matriz
W(1) (n x n), onde cada um dos elementos wij representa uma medida de
proximidade entre Ai e Aj. Esta medida de proximidade pode ser calculada a
partir de um dos seguintes critérios:

• wij = 1, se o centróide de Ai está a uma determinada distância de Aj; caso


contrário wij = 0

A l ld d f
• wij = 1, se Ai compartilha um lado comum com Aj , caso contrário wij =
0

• wij = lij/li, onde lij é o comprimento da fronteira entre Ai e Aj e li é o


perímetro de Ai
Como a matriz de proximidade é utilizada em cálculos de indicadores
na fase de análise exploratória, é muito útil normalizar suas linhas, para que
a soma dos pesos de cada linha seja igual a 1. Isto simplifica muito vários
cálculos de índices de autocorrelação espacial, como se verá a seguir. A
Figura 5-8 ilustra um exemplo simples de matriz de proximidade espacial,
em que os valores dos elementos da matriz refletem o critério de adjacência e
foram normalizados.

A B C D E
C A 0 0,5 0 0,5 0
B B 0,25 0 0,25 0,25 0,25
A C
D
0 0,5
0,33 0,33 0
0 0
0
0,5
0,33
E 0 0,33 0,33 0,33 0
E
D

Figura 5-8- Matriz de proximidade espacial de primeira ordem, normalizada pelas linhas.
A idéia da matriz de proximidade espacial pode ser generalizada para
vizinhos de maior ordem (vizinhos dos vizinhos). Com critério análogo ao
adotado para a matriz de vizinhança de primeira ordem, pode-se construir as
matrizes W(2), ..., W(n). Por exemplo, na Figura 5-6, as áreas A e C são
vizinhas na matriz de proximidade espacial de ordem 2. No que segue, por
simplicidade, os coeficientes da matriz de primeira ordem são designados
simplesmente por wij, e os das matrizes de ordem k por wij(k) e que essas
matrizes estão normalizadas por linhas.
Média Móvel Espacial
Uma forma simples de explorar a variação da tendência espacial dos
dados é calcular a média dos valores dos vizinhos. Isto reduz a variabilidade
espacial, pois a operação tende a produzir uma superfície com menor
flutuação que os dados originais. A média móvel µ̂i associada ao atributo zi,
relativo à i-ésima área, pode ser calculada a partir dos elementos wij da
matriz normalizada de proximidade espacial W(1), tomando-se simplesmente
a média dos vizinhos:

A l ld d f
n
µ̂ i = ∑ wij zi
j =1
(5.1.)
A Figura 5-9 ilustra o uso do estimador de média móvel para o
percentual de idosos (mais de 70 anos) para os 96 distritos da cidade de São
Paulo. Estes dados são indicadores da grande disparidade social da cidade,
com uma grande variação entre o centro (onde a proporção de idosos chega
a 8%) com a periferia (onde há várias regiões com menos de 1%). O valor
máximo do percentual de idosos é de 8,2% e o mínimo de 0,8%, com um
desvio padrão de aproximadamente 2%. Com a média local, há um
alisamento: o valor mínimo é de 1% e o máximo é reduzido a 6,8%. Pode-se
notar, ao comparar os dois mapas da Figura 5-9, que a média móvel local
fornece uma visão das grandes tendências do fenômeno em estudo e no caso
do percentual de idosos, mostra um forte gradiente centro-periferia.

Figura 5-9- Distribuição dos idosos na cidade de São Paulo (censo de 1991). À esquerda,
apresentação dos valores por distribuição estatística. À direita, média móvel local.
Indicadores Globais de Autocorrelação Espacial: Índices de Moran e Geary
Um aspecto fundamental da análise exploratória espacial é a
caracterização da dependência espacial, mostrando como os valores estão
correlacionados no espaço. Neste contexto, as funções utilizadas para estimar
quanto o valor observado de um atributo numa região é dependente dos
valores desta mesma variável nas localizações vizinhas são a autocorrelação
espacial e o variograma. O índice global de Moran I, é a expressão da
autocorrelação considerando apenas o primeiro vizinho:

A l ld d f
n n
∑∑ wij ( zi − z )( z j − z )
i =1 j =1
I=
n
∑ ( zi − z ) 2
i =1 (5.2.)
Na equação acima, n é o número de áreas, zi o valor do atributo
considerado na área i, z é o valor médio do atributo na região de estudo e
wij os elementos da matriz normalizada de proximidade espacial. Neste caso
a correlação será computada apenas para os vizinhos de primeira ordem no
espaço, conforme estabelecido pelos pesos wij. O mesmo cálculo feito para
matrizes de proximidade de maior ordem permite estimar a função de
autocorrelação para cada ordem de vizinhança (ou “lag”).
n n
n∑ ∑ wij( k ) ( zi − z )( z j − z )
i =1 j =1
I(k ) = N
(5.3.)
∑ ( zi − z ) 2

i =1

De uma forma geral, o índice de Moran presta-se a um teste cuja


hipótese nula é de independência espacial; neste caso, seu valor seria zero.
Valores positivos (entre 0 e +1) indicam para correlação direta e negativos,
(entre 0 e –1) correlação inversa. Uma vez calculado, é importante
estabelecer sua validade estatística. Em outras palavras, será que os valores
medidos representam correlação espacial significativa? Para estimar a
significância do índice, será preciso associar a este uma distribuição
estatística, sendo mais usual relacionar a estatística de teste à distribuição
normal. Outra possibilidade, sem pressupostos em relação à distribuição, e
abordagem mais comum é um teste de pseudo-significância. Neste caso, são
geradas diferentes permutações dos valores de atributos associados às
regiões; cada permutação produz um novo arranjo espacial, onde os valores
estão redistribuídos entre as áreas. Como apenas um dos arranjos
corresponde à situação observada, pode-se construir uma distribuição
empírica de I, como mostrado na Figura 5-10. Se o valor do índice I medido
originalmente corresponder a um “extremo” da distribuição simulada, então
trata-se de valor com significância estatística.
No caso do índice exclusão/inclusão social em São Paulo, apresentado
na Figura 5-1, o índice global de Moran medido é 0,642. Uma pseudo-
distribuição com 100 valores está mostrada na Figura 5-10. Neste caso, o valor
de significância associado é de 5,23, o que nos leva a rejeitar a hipótese nula
(não correlação entre as regiões), com significância de 99,5%. Pode-se dizer
então que a exclusão social em São Paulo apresenta forte estrutura espacial,

A l ld d f
parte variação ampla, ou tendência, parte dependência espacial entre
vizinhos.

Figura 5-10– Exemplo de distribuição simulada para o índice de Moran.

A hipótese implícita do cálculo do índice de Moran é a estacionariedade


de primeira e segunda ordem, e o índice perde sua validade ao ser calculado
para dados não estacionários Quando existir não-estacionariedade de
primeira ordem (tendência), os vizinhos tenderão a ter valores mais
parecidos que áreas distantes, pois cada valor é comparado à média global,
inflacionando o índice. Da mesma forma, se a variância não é constante, nos
locais de maior variância o índice será mais baixo, e vice-versa. Quando o
dado é não-estacionário, a função de autocorrelação continua decaindo
mesmo após ultrapassar a distância onde há influências locais. Algumas
variações deste modelo são o teste C de Geary e o teste Ipop. O primeiro (C
de Geary) difere do teste I de Moran por utilizar a diferença entre os pares,
enquanto que Moran utiliza a diferença entre cada ponto e a média global.
Assim, o indicador C de Geary assemelha-se ao variograma, e o I de Moran
ao correlograma.
n n
( n − 1) ∑ ∑ wij ( zi −z j )2
i =1 j =1
C= n n n
(5.4.)
∑ ∑ wij ∑ zi
2

i =1 j =1 i =1

O teste Ipop também é utilizado para detectar desvios de uma


distribuição espacial aleatória, porém incorpora a variação da população nas
áreas. Assim, é sensível à ocorrência de aglomerado intra-área – ou seja, a
ocorrência de elevado número de casos numa pequena população de um
único município – além dos aglomerados entre áreas, onde municípios com
muitos casos são adjacentes. Portanto o índice Ipop pode ser decomposto em

A l ld d f
um componente intra-áreas e outro inter-áreas, que podem ser apresentados
sob forma percentual nos resultados. A hipótese nula (H0) assume que a
variação geográfica do número de casos segue a variação geográfica do
tamanho da população, sendo particularmente útil quando a população das
áreas não é homogênea.
m m m m
N 2
∑∑wij (ei − di )(e j − d j ) − N(1 − 2b )∑wijei − Nb ∑wiidi
i =1 j =1 i =1 i =1
Ipop =
m m m
(X 2 ∑∑di d j wij −X ∑di wii )b (1 − b )
i =1 j =1 i =1
(5.5.)

çåÇÉW=ã= →= k∫ãÉêç=ÇÉ=•êÉ~ë==
k== →= k∫ãÉêç=íçí~ä=ÇÉ=Å~ëçë=Éã=íçÇ~ë=~ë=•êÉ~ëK=
åá== →= k∫ãÉêç=ÇÉ=Å~ëçë=å~=•êÉ~=á=
Éá= →= mêçéçê´©ç=ÇÉ=Å~ëçë=å~=•êÉ~=á=EÉáZåáLkF=
u= →= mçéìä~´©ç=íçí~ä=Éã=íçÇ~ë=~ë=•êÉ~ë=
ñá== →= q~ã~åÜç=Ç~=éçéìä~´©ç=å~=•êÉ~=á=
Çá== →= mêçéçê´©ç=ÇÉ=éçéìä~´©ç=å~=•êÉ~=á=EÇáZñáLkF=
wá== →= aáÑÉêÉå´~=ÉåíêÉ=~=í~ñ~=uá=É=~=ã¨Çá~=ÇÉ=u=
ïáà= =→= mÉëçë=~íêáÄì∞Ççë=ÅçåÑçêãÉ=~=ÅçåÉñ©ç=ÉåíêÉ=~ë=•êÉ~ë=á=É=à=
Ä== →= mêÉî~äÆåÅá~=ã¨Çá~=EkLuF=
A tabela 5.2 apresenta os resultados dos testes de aglomerado espacial
para a mortalidade por homicídios no Estado do Rio. Observe que o grau de
significância do teste Ipop é maior que o Moran, e que aproximadamente
metade da agregação deve-se a fatores intra-municipais. Ou seja, além de
municípios próximos apresentarem padrões semelhantes, existe um excesso
de casos dentro dos municípios violentos, que ultrapassa o esperado em
função da população.
TABELA 5.2
RESULTADOS DOS TESTES DE AGLOMERADOS ESPACIAIS:
HOMICÍDIOS NO RIO DE JANEIRO, 90-92
Moran I Ipop
Indicador 0,5861 0,00015
p-valor 7,5091 88,9238
% entre áreas - 54,3
% intra áreas - 45,7

A l ld d f
Variograma
De maneira análoga ao apresentado no capítulo 3, podemos utilizar o
variograma como indicador da dependência espacial. Para tanto, associamos
o valor único do atributo de cada área a um ponto, usualmente o centro
geométrico ou populacional do polígono. Com base nestas localizações,
calcula-se a função variograma. Note-se quando o dado é não-estacionário,
também o variograma não se estabiliza, mas continua crescendo sempre com
a distância. Como exemplo de uso do variograma para dados de área, a
Figura 5-11 ilustra o Índice de Desenvolvimento Humano – IDH – para o
estado de São Paulo, calculado pelo IPEA, com base no censo de 1991. A
Figura 5-12 apresenta o variograma do IDH, computado a partir dos
centróide de cada município.

Figura 5-11- IDH para São Paulo (censo de 1991)

Figura 5-12 Variograma experimental do IDH para São Paulo (censo de 1991). Passo de
amostragem: 40 km (tolerância : 20 km).

A l ld d f
O que mostra o variograma da Figura 5-10? No eixo dos X,
apresentam-se as distâncias entre os municípios, e no eixo Y, a média do
quadrado das diferenças do IDH, para municípios separados por faixas de
distância, com intervalos de 40 km e tolerância de 20 km. Assim, o primeiro
ponto calcula a diferença de IDH entre os municípios cuja distância entre os
centros seja de 20 a 60 Km, e assim por diante, até a distância de 400 km. O
gráfico evidencia uma forte dependência espacial entre os indicadores de
qualidade de vida dos municípios de São Paulo. Trata-se de um resultado dos
processos de ocupação do estado, que seguiram perspectivas regionais. A
partir da lógica de expansão do café do século XIX, observa-se hoje uma
região de forte produção agrícola situada ao longo do eixo da rodovia
Anhanguera, a predominância da pecuária na região do Oeste Paulista, e
uma forte concentração industrial na região metropolitana de São Paulo, no
ABC e no médio Vale do Paraíba. Assim, todos os processos históricos
apontam para uma dependência espacial no desenvolvimento econômico no
estado.
Para considerar um exemplo adicional, considere-se o estudo sobre
mortalidade por homicídios na região Sudeste. que são a causa de mais de
20% dos óbitos dos homens entre 15 e 45 anos no Brasil. A Figura 5-13
ilustra a distribuição espacial da mortalidade por homicídios, usando como
indicador o logaritmo do coeficiente de mortalidade específico , por 100.000
residentes do mesmo grupo etário. Entendendo o processo da violência
como o de uma "epidemia" da modernidade, que se "propaga" no espaço,
uma simples observação visual permite identificar uma elevada ocorrência de
mortes violentas no RJ, com uma tendência espacial capital-interior. No caso
de ES e SP, há uma concentração próxima da capital e grandes cidades. No
entanto, em MG, as áreas mais violentas situam-se longe das regiões
metropolitanas, o que indica um padrão espacial distinto. Adicionalmente,
há uma marcada transição na fronteira entre MG e RJ, indicando uma
mudança nas condições de disseminação da "epidemia da violência". Cabe
lembrar que foi utilizado o logaritmo do indicador, dado ser a distribuição
do mesmo bastante concentrada em torno de valores muito baixos, com
uma grande cauda a direita.

A l ld d f
Figura 5-13 - Mortalidade por homicídos, região Sudeste do Brasil
O correlograma da Figura 5-14 apresenta a autocorrelação espacial
entre os municípios de cada estado, expressa através da função definida pela
equação 5.3. O gráfico indica a existência de uma forte tendência espacial no
RJ, pois a função de autocorrelação não se estabiliza com a distância, mas
continua decrescente, ao contrário de MG, que não apresenta dependência
espacial marcante. Em outras palavras, no RJ, se o município vizinho ao seu
é violento, é altamente provável que a sua cidade também o seja; todo o
estado apresenta uma estrutura de violência regionalizada, e a violência decai
no interior do estado. Em MG, esta padrão não é observado: a violência
parece flutuar aleatoriamente.
MG RJ

0.6

0.4
Autocorrelação

0.2

0.0

-0.2

0 100 200 300 400 500 600 0 100 200 300 400 500 600

distância entre pares

Figura 5-14. Correlograma da mortalidade por homicídios nos estados do Sudeste.

Diagrama de Espalhamento de Moran


O diagrama de espalhamento de Moran é uma maneira adicional de
visualizar a dependência espacial. Construído com base nos valores

A l ld d f
normalizados (valores de atributos subtraídos de sua média e divididos pelo
desvio padrão), permite analisar o comportamento da variabilidade espacial.
A idéia é comparar os valores normalizados do atributo numa área com a
média dos seus vizinhos, construindo um gráfico bidimensional de z (valores
normalizados) por wz (média dos vizinhos), que é dividido em quatro
quadrantes, como mostrado na Figura 5-15 para o índice de
exclusão/inclusão social de São Paulo, censo de 1991. Os quadrantes podem
ser interpretados como:
• Q1 (valores positivos, médias positivas) e Q2 (valores negativos, médias
negativas): indicam pontos de associação espacial positiva, no sentido
que uma localização possui vizinhos com valores semelhantes.
• Q3 (valores positivos, médias negativas) e Q4 (valores negativos, médias
positivas): indicam pontos de associação espacial negativa, no sentido
que uma localização possui vizinhos com valores distintos.

0,8
0,6
Q4 Q1
0,4
0,2
WZ

0,0
-0,2
-0,4 Q2 Q3
-0,6
-0,8
-1,0 -0,5 0,0 0,5 1,0 1,5
Z
Z = 0,642*WZ

Figura 5-15 Diagrama de Espalhamento de Moran para o índice de exclusão/inclusão


social de São Paulo, censo de 1991.
O diagrama de espalhamento de Moran corrobora os resultados
apresentados, onde indicamos que o índice global de Moran para o
indicador de exclusão/inclusão social para os distritos de São Paulo
apresentava valor estatisticamente significativo. Como mostrado na Figura
5-15, a maior parte dos distritos de São Paulo está localizado nos quadrantes
Q1 e Q2, que apresentam associação espacial positiva. Os pontos localizados
nos quadrantes Q3 e Q4 podem ser vistos como regiões que não seguem o
mesmo processo de dependência espacial das demais observações.
Evidentemente, o diagrama reflete a estrutura espacial nas duas escalas de
análise: vizinhança e tendência.

A l ld d f
O índice de Moran I é equivalente ao coeficiente de regressão linear que
indica a inclinação da reta de regressão (α) de wz em z. Para o caso dos
dados apresentados na Figura 5-15, este coeficiente é igual a 0,642, o mesmo
valor calculado aplicando-se a fórmula da equação 5.3. O diagrama de
espalhamento de Moran também pode ser apresentado na forma de um
mapa temático bidimensional, no qual cada polígono é apresentado
indicando-se seu quadrante no diagrama de espalhamento, como ilustra a
Figura 5-16, em que mostramos o mapa do espalhamento do índice de
Moran para o índice de exclusão/inclusão social da cidade de São Paulo em
1991. Nesta figura, “Alto-Alto”, “Baixo-Baixo”, “Alto-Baixo” e “Baixo-Alto”
indicam, respectivamente, os quadrantes Q1, Q2, Q3 e Q4, mostrados na
Figura 5-15. Nota-se uma forte polarização centro-periferia e observa-se que
os distritos localizados nos quadrantes Q3 e Q4 (indicados pela cor azul)
podem ser entendidos como regiões de transição entre o centro da cidade
(que tende a apresentar valores positivos do índice de exclusão/inclusão
social) e as duas grandes periferias de São Paulo (zona Sul e zona Leste).

Figura 5-16 Mapa de Espalhamento de Moran para o índice de exclusão/inclusão

social da cidade de São Paulo, censo 1991


Indicadores Locais de Associação Espacial
Os indicadores globais de autocorrelação espacial, como o índice de
Moran, fornecem um único valor como medida da associação espacial para
todo o conjunto de dados, o que é útil na caracterização da região de estudo
como um todo. Quando lidamos com grande número de áreas, é muito
provável que ocorram diferentes regimes de associação espacial e que
apareçam máximos locais de autocorrelação espacial, onde a dependência
espacial é ainda mais pronunciada. Assim, muitas vezes é desejável examinar
padrões em maior detalhe. Para tanto, é preciso utilizar indicadores de
associação espacial que possam ser associados às diferentes localizações de
uma variável distribuída espacialmente. Os indicadores locais produzem um

A l ld d f
valor específico para cada área, permitindo assim a identificação de
agrupamentos. O índice local de Moran pode ser expresso para cada área i a
partir dos valores normalizados zi do atributo como:
n
zi ∑ wij z j
j =1
Ii = n
(5.6.)

∑ z 2j
j =1

A significância estatística do uso do índice de Moran local é computada


de forma similar ao caso do índice global. Para cada área, calcula-se o índice
local, e depois permuta-se aleatoriamente o valor das demais áreas, até obter
uma pseudo-distribuição para a qual possamos computar os parâmetros de
significância.Uma vez determinada a significância estatística do índice local
de Moran, é útil gerar um mapa indicando as regiões que apresentam
correlação local significativamente diferente do resto do dados. Estas regiões
podem ser vistas como "bolsões" de não-estacionariedade, pois são áreas com
dinâmica espacial própria e que merecem análise detalhada. Para o caso do
índice de exclusão/inclusão social da cidade de São Paulo (censo de 1991),
esse mapa (Figura 5-17) mostra claramente os agregados de pobreza e de
riqueza na cidade. Na zona Leste e na zona Sul de São Paulo há regiões
críticas, onde o agravamento das condições sociais resulta numa degradação
significativa das condições de vida.

Figura 5-17 – Indicador de autocorrelação espacial para o índice de exclusão/inclusão


social de São Paulo (censo de 1991). Apenas os valores com significância maior que 95%
estão mostrados.

A l ld d f
5.5 ESTIMAÇÃO DE INDICADORES:

A seção 5.3 apresentou o problema de agregação de contagens em áreas,


com a recomendação final de utilizar a melhor resolução espacial disponível.
Na prática, o uso desta estratégia requer um tratamento adicional nos dados,
principalmente nos casos de pequenas áreas em que calculamos taxas sobre
um universo populacional reduzido. Para entender melhor o problema,
considere-se a Figura 5-18 que apresenta um mapa temático com a
mortalidade infantil dos bairros do Rio de Janeiro, em 1994. Neste mapa, o
Rio está dividido em 148 bairros, e a taxa de mortalidade infantil anual para
cada bairro, expressa o número de óbitos de menores de 1 ano, por mil
nascidos vivos.

Figura 5-18 - Taxa total de mortalidade infantil por mil nascidos vivos no Rio de
Janeiro, em 1994.
Numa primeira leitura, este mapa choca pelas altas taxas de mortalidade
de vários bairros, com 15 bairros apresentando uma taxa maior que 40
óbitos por mil nascidos, e 2 casos com taxas acima de 100 por mil nascidos.
Um observador desatento poderia concluir que todos estes bairros
apresentam um grave problema social. Na realidade, muitos destes valores
extremos ocorrem nos bairros com pequenas populações, pois a divisão da
cidade utilizada esconde enormes diferenças na população em risco, variando
de 15 até 7500 crianças por bairro. Por exemplo, considere uma região com
15 crianças nascidas e nenhuma morte, o que aparentemente indicaria uma
situação ideal. Se apenas uma criança morre neste ano, a taxa passa de 0 por
mil para 66 por mil !
Tais problemas são típicos de recobrimentos espaciais sobre divisões
político-administrativas, onde se analisam áreas com valores muito distintos
de população em risco. Vários estudos têm mostrado que em divisões
políticas como bairros e municípios apresentam relações inversas de área e
população, isto é, os maiores bairros em população tendem a ter menores

A l ld d f
áreas, e vice-versa. Por isso mesmo, freqüentemente o que mais chama a
atenção num mapa temático de taxas, que são os valores extremos, muitas
vezes são resultado de um número reduzidíssimo de observações, sendo
portanto menos confiável, ou seja, apenas flutuação aleatória .
Para suavizar a flutuação aleatória, considera-se que a taxa estimada
pela divisão simples entre contagem de óbitos e de população – taxa
observada – é apenas uma realização de um processo não observado, e que é
tanto menos confiável quanto menor a população. Assim, propõe-se re-
estimar uma taxa mais próxima do risco real ao qual a população está
exposta. A primeira providência é fazer um gráfico que expresse a taxa em
função da população em risco, como mostrado na Figura 5-19.

Figura 5-19 Taxa de mortalidade infantil no Rio de Janeiro em 1994 em função do


número de nascimentos por bairro.
No caso do Rio, a taxa média de mortalidade infantil da cidade, em
1994, foi de 21 óbitos por mil nascidos. Neste gráfico, observa-se que os
bairros com maior população apresentam taxas próximas da média da
cidade. Conforme diminui a população em risco, aumenta muito a flutuação
da taxa medida, formando o que já foi denominado de “efeito funil”. Nos
bairros de menor população, esta variação oscilou de 0 a quase 130 por mil.
É razoável supor que as taxas das diferentes regiões estão
autocorrelacionadas, e levar em conta o comportamento dos vizinhos para
estimar uma taxa mais realista para as regiões de menor população. Esta
formulação sugere o uso de técnicas de estimação bayesiana. Nesse contexto,
considera-se que a taxa “real” θi associada a cada área não é conhecida, e
dispomos de uma taxa observada ti = zi ni , onde ni é o número de pessoas
observadas, é zi é o número de eventos na i-ésima área.

A l ld d f
A idéia do estimador bayesiano é supor que a taxa θi é uma variável
aleatória, que possui uma média µi e uma variância σ i2 . Pode ser
demonstrado que o melhor estimador bayesiano é dado por uma combinação
linear entre a taxa observada e a média µi :
θˆi = wi ti + ( 1 − wi )µ i , (5.7.)

O fator wi é dado por:

σ i2
wi = (5.8.)
σ i2 + µ i ni

O peso wi é tanto menor quanto menor for a população em estudo da


i-ésima área e reflete o grau de confiança a respeito de cada taxa. Para o caso
de populações reduzidas, a confiança na taxa observada diminui e a
estimativa da taxa se aproxima de nosso modelo a priori (ou seja, se
aproxima de µ). Regiões com populações muito baixas terão uma correção
maior, e regiões populosas terão pouca alteração em suas taxas. Logo θi será
estimado, quando n for pequeno, com maior peso da média da vizinhança.
Neste ponto, deve-se observar que a formulação bayesiana requer as
médias e variâncias µi e σ i2 para cada uma das áreas. A abordagem mais
simples para tratar a estimação destes parâmetros é o chamado estimador
bayesiano empírico. Este estimador parte da hipótese que a distribuição da
variável aleatória θi é a mesma para todas as áreas; isto implica que todas as
médias e variâncias são iguais. Pode-se então estimar µi e σ i2 diretamente a
partir dos dados. Neste caso, calcula-se µi a partir das taxas observadas:

µ̂ =
∑ yi (5.9.)
∑ ni
E estima-se a variância σ i2 a partir da variância das taxas observadas
com relação à média estimada:

σ 2
=
∑ ni (ti − µˆ ) 2

µˆ
(5.10.)
∑ ni n

As regiões terão suas taxas re-estimadas aplicando-se uma média


ponderada entre o valor medido e a taxa média global, em que o peso da
média será inversamente proporcional à população da região. Ao aplicarmos
esta correção às taxas de mortalidade infantil do Rio de Janeiro, observamos
que há uma redução significativa nos valores extremos. Por exemplo, a
Cidade Universitária (Ilha do Fundão), onde nasceram 13 crianças em 1994,
apresentou uma taxa aparente de 76 por mil nascidos vivos e uma taxa

A l ld d f
corrigida de 36 por mil. Bairros com pouca população no grupo de risco
apresentaram reduções semelhantes, enquanto que bairros mais populosos
mantiveram as taxas originalmente medidas. A comparação entre a taxa
primária e o valor estimado está apresentada na Figura 5-18. Em resumo, é
preciso extremo cuidado ao produzir mapas temáticos, especialmente em
Å~ëçë= çåÇÉ= ~éêÉëÉåí~ãçë= í~ñ~ë= ãÉÇáÇ~ë= ëçÄêÉ= éçéìä~´πÉë= Åçã= î~äçêÉë=
êÉÇìòáÇçëK=

Figura 5-18. Comparação entre a taxa de mortalidade infantil observada e a taxa estimada

pelo método bayesiano empírico.

O estimador bayesiano empírico pode ser generalizado para incluir


efeitos espaciais. Neste caso, a idéia é fazer a estimativa bayesiana
localmente, convergindo em direção a uma média local e não a uma média
global. Basta aplicar o método anterior em cada área considerando como
“região” a sua vizinhança. Isto é equivalente a supor que as taxas da
vizinhança da área i possuem média µi e variância σ i2 comuns. Neste caso,
pode-se falar em estimativa bayesiana empírica local. A seguir, apresenta-se a
detecção de hanseníase em Recife (Figura 5-20) onde foi utilizado esse método
local para estimar a taxa da doença nos bairros da cidade. Através do mapa
“corrigido” foi possível indicar bairros prioritários para a atuação da
vigilância epidemiológica por apresentarem valores altos mesmo após
suavização do indicador.

A l ld d f
N

W E

Coef. Detecção 93-97 Alisamento Bayesiano


Empírico

0
0 - 2.28 1.07 - 2.53
2.53 - 4.35
2.28 - 4.63 4.35 - 5.83
4.63 - 8.79 5.83 - 8.43
8.79 - 144.33 8.43 - 13.59

Figura 5-20 - Taxas de detecção média de hanseníase em menores de 15 anos, período


1993-1997, por bairro do Recife, e taxas estimadas através de alisamento bayesiano.

Como apresentado acima, o estimador bayesiano empírico parte da


hipótese que a distribuição da variável aleatória θi é a mesma para todas as
áreas e que as médias e variâncias µi e σ i2 para cada uma das áreas são iguais.
Deve-se lembrar que esta hipótese nem sempre é realista, pois em estatísticas
socioeconômicas (como no caso dos dados de saúde discutidos) as
características das populações estudadas são muito heterogêneas. Deste
modo, em muitos casos é desejável fazer a hipótese de que cada área tem seu
próprio padrão (e os µi e σ2i são distintos); isto implica em estimar a
distribuição conjunta Z = {Z1 , ..., Z n } das variáveis aleatórias.

À primeira vista, a estimativa da distribuição conjunta pode parecer


impossível, dado que está disponível para análise apenas uma amostra de
cada uma das variáveis aleatórias, ou seja, sabe-se apenas o valor coletado em
cada unidade de área. Entretanto, os estimadores bayesianos completos (full
Bayes) tornaram possível resolver o problema, através da utilização de
técnicas de simulação baseadas em MCMC – Markov Chain Monte Carlo –
para a inferência dos parâmetros de interesse. Em função da complexidade
de formulação, este livro não aborda os estimadores bayesianos baseados em
MCMC. O leitor deve referir-se à bibliografia no final do capítulo para
maiores detalhes.

A l ld d f
5.6 MODELOS DE REGRESSÃO

Um dos tipos de estudos mais comuns com dados de área é o uso de


modelos de regressão. Um modelo de regressão é uma ferramenta estatística
que utiliza o relacionamento existente entre duas ou mais variáveis de
maneira que uma delas possa ser descrita ou o seu valor estimado a partir das
demais. Na situação dos dados espaciais, quando está presente a
autocorrelação espacial, as estimativas do modelo devem incorporar esta
estrutura espacial, uma vez que a dependência entre as observações altera o
poder explicativo do modelo. A significância dos parâmetros é usualmente
superestimada, e a existência de variações em larga escala pode até mesmo
induzir a presença de associações espúrias.
Neste livro, não será feita uma descrição detalhada dos modelos
tradicionais de regressão, disponível em diversos livros consagrados, mas
apenas será apresentado um breve resumo, necessário ao entendimento dos
modelos de regressão espacial. O objetivo geral de uma análise de regressão
linear é quantificar a relação linear entre uma variável dependente e um
conjunto de variáveis explicativas, conforme expresso na equação matricial:
Y = Xβ + ε , ε ~ N(0, σ 2 ) ou (5.11.)

 Y1  1 X 11 .. X 1k −1   β 0   ε 1 
Y  1 X .. X 2k −1   β1  ε 2 
 2  21

 ..  = .. .. .. ..   ..  +  ..  (5.12.)
      
 ..  .. .. .. ..   ..   .. 
Yn  1 X n1 .. X nk −1   β k −1  ε n 

onde Y é a variável dependente, composta de um vetor (n x 1) de


observações tomadas em cada um das n áreas, X é uma matriz (n x k) com k-
1 variáveis explicativas também tomadas nas n áreas, β é vetor (k x 1) com os
coeficientes de regressão, e ε é um vetor (n x 1) de erros aleatórios, ou
resíduos.
Tipicamente, quando se faz uma análise de regressão, procura-se
alcançar dois objetivos: (a) encontrar um bom ajuste entre os valores preditos
pelo modelo e os valores observados da variável dependente; (b) descobrir
quais da variáveis explicativas contribuem de forma significativa para este
relacionamento linear. Para tanto, a hipótese padrão é que as observações
não são correlacionadas, e, consequentemente, que os resíduos εi do modelo
também são independentes e não-correlacionados com a variável
dependente, tem variância constante, e apresentam distribuição normal com
média zero.

A l ld d f
No entanto, no caso de dados espaciais, onde está presente a
dependência espacial, é muito pouco provável que a hipótese padrão de
observações não correlacionadas seja verdadeira. No caso mais comum os
resíduos continuam apresentando a autocorrelação espacial presente nos
dados, que pode se manifestar por diferenças regionais sistemáticas nas
relações do modelo, ou ainda por uma tendência espacial contínua.
A investigação dos resíduos da regressão em busca de sinais de estrutura
espacial é o primeiro passo em uma regressão espacial. As ferramentas usuais
de análise gráfica e o mapeamento de resíduos, podem dar as primeiras
indicações de que os valores observados estão mais correlacionados do que
seria esperado sob uma condição de independência. Neste caso, utilizar os
testes de autocorrelação espacial – Moran e Geary – nos resíduos da
regressão informa sobre sua presença. Em caso de existir autocorrelação,
deve-se especificar um modelo que considere a interferência causada pela
mesma.
No restante desta seção, apresentamos vários tipos de modelos de
regressão que permitem incorporar efeitos espaciais, desde aqueles que
tratam a estrutura espacial de forma global (como um único parâmetro) até
modelos em que os parâmetros variam continuamente no espaço.
Modelos com Efeitos Espaciais Globais
A inclusão explícita de efeitos espaciais em modelos de regressão pode
ser feita de diferentes formas. A classe de modelos de regressão espacial mais
simples, chamados de modelos com efeitos espaciais globais, supõe que é
possível capturar a estrutura de correlação espacial num único parâmetro,
que é adicionado ao modelo de regressão tradicional. Neste caso, tem-se
duas alternativas para tratar a autocorrelação global em um modelo de
regressão. Na primeira, a autocorrelação espacial ignorada é atribuída à
variável dependente Y. Esta abordagem é denominada como modelo espacial
autoregressivo misto (“Spatial AutoRegressive– SAR” ou ainda como “spatial
lag model”), dado que se considera a dependência espacial através da adição
ao modelo de regressão de um novo termo na forma de uma relação espacial
para a variável dependente. Formalmente isto é expresso como:
Y = ρWY + Xβ + ε , (5.13.)

onde W é a matriz de proximidade espacial, e o produto WY expressa a


dependência espacial em Y e ρ é o coeficiente espacial autoregressivo. A
hipótese nula para a não existência de autocorrelação é que ρ = 0. A idéia
básica neste modelo é incorporar a autocorrelação espacial como
componente do modelo. Em termos de componentes individuais, este
modelo pode ser expresso como

A l ld d f
 
 
yi = ρ ∑
 j
wij y j  + ∑
 i =1
xi β i + ε i (5.14.)
 
O segundo tipo de modelo de regressão espacial com parâmetros globais
considera que os efeitos espaciais são um ruído, ou perturbação, ou seja,
fator que precisa ser removido. Neste caso, os efeitos da autocorrelação
espacial são associados ao termo de erro ε e o modelo pode ser expresso por:
Y = Xβ + ε , ε = λW + ξ , (5.15.)

onde Wε é a componente do erro com efeitos espaciais, λ é o coeficiente


autoregressivo e ξ é a componente do erro com variância constante e não
correlacionada. A hipótese nula para a não existência de autocorrelação é
que λ= 0, ou seja, o termo de erro não é espacialmente correlacionado. Este
modelo é também chamado de modelo do erro espacial (“spatial error model”
ou ainda “Conditional AutoRegressive” - CAR).
A partir da equação 5.15, pode-se mostrar que o modelo de erro
espacial pode também ser expresso como:
Y − λWY = Xβ − λWXβ + ξ (5.16.)

ou ainda como
( I − λW )Y = ( I − λW ) Xβ + ξ (5.17.)

o que pode ser visto como uma regressão não-espacial nas variáveis
“filtradas”
Y * = ( I − λW )Y , X * = ( I − λW ) X (5.18.)

Na prática, a distinção entre os dois tipos de modelos de regressão


espacial com parâmetros globais é difícil pois, apesar da diferença nas suas
motivação, eles são muito próximos em termos formais. Estes modelos estão
incluídos em ambientes de estatística espacial avançados, como nos softwares
SpaceSat™, S-Plus™ e R, esse de domínio público. Nas referências no final do
capítulo, o leitor poderá encontrar indicações sobre como tais modelos
podem ser estimados e sobre testes de hipóteses sobre seu comportamento.
Os modelos de regressão espacial com efeitos globais partem do
princípio de que o processo espacial subjacente aos dados analisados é
estacionário. Isto implica que os padrões de autocorrelação espacial
existentes nos dados podem ser capturados num único parâmetro. Na
prática, para conjuntos de dados censitários de médio e grande porte, a
natureza dos processos espaciais é tal que diversos padrões de associação
espacial podem estar presentes. Esta hipótese, que pode ser verificada, por

A l ld d f
exemplo, pelos indicadores locais de autocorrelação espacial, está na origem
aos modelos cujos parâmetros variam no espaço, discutidos a seguir.
Modelos de Regressão com Efeitos Espaciais Locais
(a) Caso Discreto – Modelos de Regressão com Regimes Espaciais
Quando o processo espacial é não-estacionário, os coeficientes de
regressão precisam refletir a heterogeneidade espacial. Para tanto, há duas
grandes alternativas: (a) modelar a tendência espacial de forma contínua,
com parâmetros variantes no espaço; (b) modelar a variação espacial de
forma discreta, ao dividir o espaço em sub-regiões estacionárias, chamadas
de regimes espaciais.
A idéia de regimes espaciais é dividir a região de estudo em sub-regiões,
cada uma com seu padrão espacial próprio, e realizar regressões em
separado, uma para cada região. As observações são classificadas em dois ou
mais subconjuntos, a partir de uma variável por indicação, a saber:
Y1 = X 1β1 + ε1 , ind = 1 (5.19.)

Y2 = X 2 β 2 + ε 2 , ind = 2 (5.20.)

Apesar de cada regime possuir os seus próprios valores de coeficientes,


estes valores são estimados conjuntamente, ou seja, todo o conjunto de
observações disponível é utilizado na regressão. Para a determinação dos
regimes espaciais, as técnicas de análise exploratória apresentadas no início
do capítulo são muito úteis, especialmente o mapa de espalhamento de
Moran e os indicadores locais de autocorrelação espacial.
Na prática, para os dados sócio-econômicos típicos de cidades
brasileiras, o modelo de regimes espaciais tende a apresentar resultados
melhores que os modelos de regressão simples ou de regressão espacial com
efeitos globais. Isto ocorre em função das fortes desigualdades sociais no
Brasil, que ocasionam descontinuidades abruptas nos fenômenos estudados,
como no caso do recorte entre favelas e áreas ricas, como é freqüente nas em
nossas grandes cidades.
Modelos de Regressão com Efeitos Espaciais Locais
(b) Modelos de Regressão com Efeitos espaciais contínuos
Esta classe de modelos procura modelar fenômenos não-estacionários.
Diferentemente do modelo por regimes espaciais, os efeitos espaciais são
modelados de forma contínua, com duas hipóteses: (a) a existência de uma
variação suave em larga escala, sem efeitos locais significativos ou (b) a
existência de variações locais contínuas, sem uma forte tendência global. O
primeiro caso corresponde às superfícies de tendência, descritas no capítulo 3
deste livro, resumidas no que segue para conveniência de leitura. O modelo

A l ld d f
de superfícies de tendência considera um processo espacial onde o valor da
variável é uma função polinomial de sua posição no espaço. O modelo de
regressão múltipla utilizando notação vetorial é:
Y ( s) = X (s) β + ε (s ) (5.21.)

onde, Y(s) → variável aleatória representando o processo no ponto s,


X(s)β → tendência (ou seja, o valor médio µ(s)),
ε(s) → erro aleatório com média zero e variância σ2
O vetor x(s) consiste em p funções das coordenadas espaciais (s1, s2), do
ponto amostrado s. Para uma superfície de tendência linear é apenas (1, s1,
s2), para quadrática é (1, s1, s2, s12, s22, s1.s2), e assim sucessivamente. β é o
vetor (p+1) de parâmetros a ser ajustado. O pressuposto básico deste
modelo supõe que os erros têm variância constante e são independentes em
cada local, consequentemente, a covariância é zero: não há efeitos de
segunda ordem presentes no processo. Neste contexto, é feito o ajuste do
modelo por mínimos quadrados ordinários. O modelo de superfícies de
tendência é útil sobretudo como uma primeira aproximação do fenômeno,
pois na prática, são limitados os casos em que a variação espacial pode ser
expressa desta forma. No entanto, os resíduos destes modelos são muito
informativos sobre a natureza das variações locais.
No caso de modelos de variações locais contínuas, é idéia é ajustar um
modelo de regressão a cada ponto observado, ponderando todas as demais
observações como função da distância a este ponto. Desta forma, serão feitos
tantos ajustes quantas observações existirem e o resultado será um conjunto
de parâmetros, sendo que cada ponto considerado terá seus próprios
coeficientes de ajuste. Estes parâmetros podem ser apresentados visualmente
para identificar como se comportam espacialmente os relacionamentos entre
variáveis. Esta técnica é denominada geographically weighted regression
(GWR ou regressão ponderada espacialmente). Para aplicar o modelo GWR,
o modelo padrão de regressão é reescrito na forma:
Y ( s) = β ( s ) X + ε , (5.22.)

onde, Y(s) é a variável aleatória representando o processo no ponto s, e


β (s) indica que os parâmetros são estimados no ponto s. Para estimar os
parâmetros deste modelo, a solução padrão por mínimos quadrados para o
caso não-espacial, dada por
β = ( X T X) −1 X T Y (5.23.)

¨=ÖÉåÉê~äáò~Ç~=ìë~åÇç=ìã=ã¨íçÇç=ÇÉ=~àìëíÉ=äçÅ~äW=
β ( s) = ( X T W (s) X ) −1 X T W (s)Y (5.24.)

A l ld d f
O ajuste local é feito de forma a garantir uma influência maior dos
pontos mais próximos, de forma semelhante aos estimadores de densidade
por kernel, discutidos no capítulo 2 do livro. Um exemplo é o uso de uma
função gaussiana, do tipo
 d 2
exp  −
1 ij 
wij ( s, τ ) = (5.25.)
2πτ  2
 2τ 

onde τ representa o raio de influência considerado, e dij a distância entre a


localização considerada e o j-ésimo ponto. Pode-se fazer testes de hipóteses
para verificar se as variações espaciais têm significado estatístico ou são
aleatórias. Para maiores detalhes sobre o modelo GWR, o leitor deve referir-
se à bibliografia no final do capítulo.
Diagnóstico de Modelos com Efeitos Espaciais
A análise gráfica dos resíduos é o primeiro passo para avaliar a
qualidade do ajuste da regressão. Mapear os resíduos é uma etapa importante
no diagnóstico do modelo, buscando indícios de ruptura dos pressupostos de
independência. Uma alta concentração de resíduos positivos (ou negativos)
numa parte do mapa é um bom indicador da presença de autocorrelação
espacial. Para um teste quantitativo, o mais comum é utilizar o índice I de
Moran sobre os resíduos.
Como os estimadores e os diagnósticos tradicionais de regressão não
levam em conta os efeitos espaciais, as inferências, como por exemplo as
indicações de qualidade de ajuste baseadas em R2(coeficiente de
determinação), serão incorretas. Estas conseqüências são similares às que
acontecem quando uma variável explicativa significativa é omitida do
modelo de regressão. Quando se quer comparar um ajuste obtido por um
modelo de regressão padrão, com um ajuste obtido por um dos modelos cuja
especificação considera a autocorrelação espacial, uma medida como o R2
não é mais confiável.
O método mais usual de seleção de modelos de regressão baseia-se nos
valores de máxima verossimilhança dos diferentes modelos, ponderando pela
diferença no número de parâmetros estimados. Nos modelos com estrutura
de dependência – espacial ou temporal - utilizam-se os critérios de
informação onde a avaliação do ajuste é penalizada por uma função do
número de parâmetros. Cabe observar que é necessário ainda levar em conta
o número de parâmetros independentes ao se incluir funções espaciais nos
modelos. Para cada nova variável em modelo de regressão, acrescenta-se um
parâmetro.

A l ld d f
Usualmente a comparação de modelos é feita utilizando o logaritmo da
máxima verossimilhança, que é o que possui melhor ajuste para os dados
observados. O critério de informação de Akaike (AIC) é expresso por:
AIC= − 2 * LIK +2k (5. 26.)

onde LIK é o log de verossimilhança maximizado e k é o número de


coeficientes de regressão. Segundo este critério, o melhor modelo é o que
possui menor valor de AIC. Diversos outros critérios de informação estão
disponíveis, a maior parte dos quais são variações do AIC, com mudanças na
forma de penalização de parâmetros ou observações.
Exemplo Ilustrativo
Como exemplo ilustrativo das técnicas de regressão espacial, estudou-se
o relacionamento entre renda e longevidade na cidade de São Paulo, para os
dados do Censo de 1991. Tratam-se de duas das três variáveis utilizadas para
compor o IDH (índice de desenvolvimento humano) da ONU. A variável
dependente a ser explicada é denotada por PERIDOSO (percentual de
pessoas com mais de 70 anos por distrito de São Paulo) e a variável
independente é indicada por PERREN20 (percentual de chefes de família
com renda de mais de 20 salários mínimos mensais). A distribuição espacial
destas variáveis está mostrados na Figura 5-21.

Figura 5-21. Percentual de idosos (à esquerda) e de chefes de família com renda


maior que 20 SM mensais (à direita) para os distritos de São Paulo (1991).
Foram comparados três modelos de regressão: o modelo padrão não-
espacial, o modelo autoregressivo (spatial lag) e o modelo em regimes
espaciais. No caso dos regimes espaciais foram consideradas três regiões da

A l ld d f
cidade (centro, periferia e a transição centro-periferia). O modelo padrão é
expresso como:
PERIDOSO = β0 + β1 PERREN20 + ε (5. 27.)
Utilizando-se a matriz de vizinhança W dos distritos, o modelo “spatial
lag” pode ser expresso como:
PERIDOSO = β0 + β1 PERREN20 + ρW(PERIDOSO) + ε (5. 28.)
Considerando-se três regiões da cidade, o modelo de regimes espaciais
pode ser expresso como
PERIDOSO_1 = β10 + β11 PERREN20_1, reg=1 (5. 29.)
PERIDOSO_2 = β20 + β21 PERREN20_2, reg=2 (5. 30.)
PERIDOSO_3 = β30 + β31 PERREN20_3, reg=3 (5. 31.)
Os resultados destes modelos de regressão são apresentados na Tabela
5-3. No modelo de regressão tradicional, a relação entre renda e longevidade
em São Paulo é muito reduzida, o que dá suporte a idéia do IDH de que
tratam-se de dimensões complementares da desenvolvimento humano. No
entanto, quando os efeitos espaciais são levados em conta, verifica-se que a
existência de real dependência entre os dois fatores. Na Figura 5-22,
apresenta-se a distribuição espacial dos resíduos da regressão para os
modelos de mínimos quadrados e spatial lag. Uma análise visual dos resíduos
da regressão tradicional indica uma prevalência de resíduos positivos no
centro da cidade e resíduos negativos na periferia, principalmente nas Zonas
Leste e Sul. Os resultados numéricos confirmam esta análise, pois o índice de
Moran dos resíduos é altamente significativo. Com relação ao desempenho
global, as medidas R2 são indicadores limitados e devem ser encaradas com
cuidados, e deve-se preferir as medidas baseadas em verossimilhança (LIK,
AIC). Neste caso, o modelo spatial lag teve um desempenho muito superior
ao modelo padrão. Este efeito é esperado, pela existência de um índice de
Moran significativo nos resíduos, que é capturado no coeficiente de efeito
espacial (ρ).
Os regimes espaciais escolhidos para São Paulo são mostrados na Figura
5-23, bem como os resíduos da regressão considerando estes regimes. Da
análise visual dos resíduos, verifica-se a não-existência de forte tendência
espacial, o que é evidenciado pelo baixo índice de Moran dos mesmos,
indicado na Tabela 5-3. No geral, o modelo de regimes espaciais apresentou
o melhor desempenho, por qualquer dos critérios (R2, LIK e AIC). O
resultado reflete a forte polarização centro-periferia da cidade de São Paulo,
e é compatível com estudos que mostram os resultados da violência urbana
nas taxas de mortalidade, especialmente de homens dos 15 aos 25 anos.

A l ld d f
Tabela 5-3
Resultados da Regressão para Longevidade e Renda em São Paulo, 1991
Regressão MMQ Spatial Lag Regimes
Espaciais
R2 ajustado 0,280 0,586 0,80
Log verossimilhança -187,92 -150,02 -124,04
AIC (Críterio de Inf. Akaike) 379,84 306,51 260,09
Índice de Moran dos resíduos 0,620 - 0,020

Figura 5-22- Resíduos da regressão por mínimos quadrados (à esquerda) e resíduos


da regressão com o modelo spatial lag (à direita).

Figura 5-23 Regimes espaciais para os distritos de São Paulo (à esquerda) e resíduos
da regressão por regimes espaciais (à esquerda).

A l ld d f
5.7 ESTIMAÇÃO DE MODELOS CONTÍNUOS A PARTIR DE DADOS DE ÁREA

As seções anteriores apresentaram técnicas de análise espacial de dados


de área tomando por base o modelo de variação espacial discreta, onde cada
área é modelada respeitando seus limites, adjacências e vizinhança. Nesta
seção, considera-se o modelo de variação espacial contínua, que supõe um
processo estocástico { Z ( x ), x ∈ A, A ⊂ ℜ } , cujos valores podem ser
2

conhecidos em todos os pontos da área de estudo. A idéia de modelos


contínuos para dados socioeconômicos decorre do fato que os levantamentos
censitários muitas vezes impõem limites de áreas a partir de critérios
puramente operacionais, que não têm relação direta com o fenômeno
modelado. Este fato leva à idéia de dissolver os limites das áreas em
superfícies contínuas, de forma a modelar melhor a real continuidade de, por
exemplo, setores censitários em regiões urbanas densamente povoadas.
No caso de estimadores de superfícies, as principais alternativas são o
uso de técnicas não-paramétricas e o uso de interpoladores geoestatísticos,
descritos nos capítulos 3 deste livro e que são brevemente resumidos no que
segue.
Estimador de Intensidade Não-Paramétrico
De forma similar como no caso de superfícies, podemos utilizar o
estimador de intensidade (kernel estimator) para nos fornecer uma primeira
aproximação da distribuição espacial do fenômeno ou variável. Neste caso,
quando os valores observados representam uma medida “média” como taxa
de mortalidade ou renda per capita, podemos utilizar um estimador que nos
permitiria calcular o valor do atributo por unidade de área. Para toda
posição (x;y) cujo valor queremos estimar, o estimador de intensidade será
computado a partir dos valores {z1,...,zn} contidos num raio de tamanho τ, a
partir da equação
n d
∑ k( τij ) z j
j =1
zˆi = , dij ≤ τ (5. 32.)
n
∑ k( τ
dij
)
j =1

Na equação acima, a função κ() é um interpolador não-paramétrico, que


pode ser, por exemplo, um kernel gaussiano, como apresentado nos capítulos
2 e 3 deste livro, onde o leitor poderá encontrar uma discussão mais
aprofundada sobre os estimadores de intensidade não-paramétricos. Um
exemplo do estimador de intensidade para taxas pode ser visto na Figura 5-
22, onde são apresentados os dados de mortalidade por homicídios para o
Estado do Rio de Janeiro, para o triênio 90-92 interpolados pelo estimador

A l ld d f
de intensidade, que nos dá uma idéia da distribuição espacial da variável
estudada. Na Figura 5-24(a) é apresentado um mapa com os valores de
indicadores de taxa de mortalidade, agregados por município. Na Figura
5-24(b), apresentamos o resultado do estimador de intensidade, que nos dá
uma idéia melhor da distribuição espacial da variável estudada.
Quando as observações nas áreas representam contagens, como as
obtidas pelo censo, o estimador de kernel apresentado acima não é
apropriado. Um valor “médio” de um atributo como “número de domicílios
precários” não faria sentido, e deve-se pensar em termos de “número de
domicílios precários por unidade de área”. Neste caso, pode-se utilizar o
numerador da equação (5.32), dividido pela área do círculo definido pelo
raio de busca:
n

2 ∑
1 ij d
zˆi = k( ) z j , d ij ≤τ (5.33.)
πτ τ
j =1

(a)

(b)

Figura 5-24 (a) Mortalidade por homicídios no RJ (1990-1992). Mapa temático com
valores por município. (b) Superfície obtida por estimador de intensidade não-paramétrico

A l ld d f
Uso de Interpoladores Geoestatísticos
No capítulo 3, apresenta-se a teoria básica da geoestatística, cuja
motivação tradicional está associada a dados do meio físico como medidas de
teor mineral ou de poluição. No caso da krigagem ordinária, a hipótese
subjacente é que os dados apresentam distribuição gaussiana, e neste caso as
propriedades ótimas dos estimadores (como a mínima variância do
resultado) são garantidas. Para o caso de dados socioeconômicos ou de saúde
coletiva, a hipótese da normalidade dos dados muito raramente é realista,
sendo mais comum supor uma distribuição de Poisson, por se tratar de
contagens de eventos. No entanto, as propriedades ótimas do estimador de
krigagem e sua ampla disponibilidade em diferentes sistemas de informação
geográfica fazem com que seja importante investigar seu uso para dados
socioeconômicos. Neste caso, a primeira providência é investigar quão
aproximados da distribuição normal se apresentam os dados; se for
necessário, pode-se aplicar transformações apropriadas (com a transformação
logarítmica) para “simetrizar” a distribuição empírica e assim aproximar-se
da distribuição normal. Para considerar uma situação concreta, Figura 5-25
apresenta a distribuição da taxa de homicídios por 100 mil habitantes, para
os 96 distritos de São Paulo em 1996, acompanhada do gráfico de
probabilidade normal, que indica o quanto estes dados se aproximam de uma
distribuição gaussiana. Da análise dos dois dados, e considerando-se ainda
que a média (43,6) é suficientemente próxima da mediana (39,3), e como o
teste de normalidade de Shapiro-Wilk indica um valor de 0,9653 (p-valor de
0,012), a hipótese de normalidade não pode ser rejeitada e permite aplicar
uma interpolador de krigagem.

14

12

10
Freqüência

0
0

0
10

20

30

40

50

60

70

80

90
10

Taxa de homicídios

Figura 5-25. Distribuição da taxa de homicídios por 100 mil habitantes para São Paulo em
1996. À direita: frequência relativa; à esquerda: gráfico de probabilidade normal.

A l ld d f
Com base nestas hipóteses, e com o objetivo de entender os padrões
espaço-temporais em São Paulo, utilizou-se a krigagem ordinária para
produzir superfícies das taxas de homicídio para os 96 distritos de São Paulo
para os anos de 1996 e 1999 (a distribuição de taxas de 1999 apresentou
padrões semelhantes que a de 1996). Para tal, o conjunto de pontos obtido
pela associação do valor do parâmentro de cada área, ao seu centróide, foi
tomado como uma amostra, usada para computar um variograma que
modelou a estrutura de correlação espacial. A superfície obtida está
apresentada na Figura 5-26 e mostra uma queda significativa nas áreas com
as menores taxas de homicídios (menos que 30 mortes por 100,000 pessoas)
em 1999 com relação a 1996. Como as áreas de menor taxa de homicídio
correspondem às áreas mais ricas da cidade (compare com as figuras 5.1), o
resultado mostra um espalhamento espacial do crime, com a violência
ocupando progressivamente toda a cidade.

Taxa Homicídios
(por 100,000)

Figura 5-26. Superfícies estimadas para as taxas de homicídio em São Paulo em 1996
(esquerda) e 1999 (direita).

5.8 COMENTÁRIOS FINAIS

Este capítulo mostrou que as técnicas de análise espacial podem ampliar


consideravelmente a capacidade de compreender os padrões espaciais
associados a dados de área, especialmente quando se trata de indicadores
sociais, que apresentam autocorrelação espacial global e local. Técnicas
exploratórias como os indicadores de Moran e os mapas de espalhamento de
Moran são muito úteis para mostrar as agregações espaciais e indicar áreas
prioritárias em termos de política pública. Métodos de estimação bayesiana

A l ld d f
para taxas permitem a correção de efeitos associados a pequenas populações.
Modelos de regressão espacial permitem estabelecer as relações entre as
variáveis, levando em conta os efeitos espaciais; neste caso, o poder
explicativo dos modelos pode ter ganhos significativos. A geração de
superfícies é um maneira eficiente de apreensão visual dos padrões espaciais.
Em resumo, estudiosos de dados sócio-econômicos podem se beneficiar
substancialmente das técnicas deste capítulo.

5.9 REFERÊNCIAS

A referência básica para a maior parte das técnicas apresentadas neste


capítulo é o livro de Trevor Bailey, “Spatial Data Analysis by Example”
(Bailey and Gattrel, 1995) e uma discussão geral sobre os modelos de
distribuição para dados espaciais é apresentada em Diggle (2001). A
homepage de Peter Diggle (www.maths.lancs.ac.uk/~diggle) contém material
relevante sobre estatística espacial.
No caso dos modelos de regressão espacial, o software SpaceStat de Luc
Anselin, e a documentação associada (Anselin, 1992) apresenta em detalhe os
modelos de regressão com efeitos globais (spatial lag e spatial error), e o
modelo de regimes espaciais. O SpaceStat foi utilizado para computar os
modelos no exemplo apresentado no capítulo. Os trabalhos de Luc Anselin
no campo de indicadores locais de autocorrelação espacial (Anselin, 1995;
Anselin, 1996) também são referências importantes. O sítio do SpaceStat é
www.spacestat.com.
O modelo de regressão GWR (geographically weighted regression) foi
idealizado por A.Stewart Fotheringham, e está descrito em seu livro
Quantitative Geography (Fotheringham et al., 2000) e outros trabalhos
(Fotheringham et al., 1996) (Brunsdon et al., 1996). Maiores informações
podem ser encontradas no sítio http://www.ncl.ac.uk/~ngeog/GWR/.
A discussão sobre o problema dos efeitos de escala e a chamada “falácia
ecológica” deve muito aos trabalhos de Stan Openshaw; como exemplo,
veja-se Openshaw (1997). Seus trabalho sobre o uso de técnicas de
otimização combinatória para obter regiões mais agregadas, também são
muito importantes (Openshaw and Alvanides, 1999).
A questão da geração de superfícies a partir de dados socioeconomicos
deve muito aos trabalhos de David Martin, em seu livro “Geographic
Information Systems: Socioeconomic Applications” (Martin, 1995) e seus
trabalhos sobre os dados censitários no Reino Unido (Martin, 1996; Martin,
1998).

A l ld d f
Os estimadores bayesianos empíricos foram inicialmente propostos em
(Marshall, 1991). Uma discussão geral sobre o assunto, incluindo uma
discussão sobre os estimadores bayesianos completos, pode ser encontrada
no excelente trabalho de Renato Assunção (Assunção, 2001) ou na revisão
abrangente de Trevor Bailey, publicada nos Cadernos de Saúde Pública
(Bailey, 2001).
Os dados de São Paulo do censo de 1991 foram extraídos do trabalho
"Mapa de Exclusão/Inclusão Social na Cidade de São Paulo", coordenado
pela prof. Aldaíza Sposati, da PUC/SP (Sposati, 1996). As taxas de homicídio
para os distritos de São Paulo em 1996 e 1999 foram produzidas pela
Fundação SEADE e a geração de superfícies por krigeagem foi feita por José
Luiz Rodriguez Yi.
Os dados do censo de Belo Horizonte para o ano de 1991 foram
cedidos pela PRODABEL, e o estudo do problema das mudanças de unidade
de análise foi realizado por Taciana Dias e Maria Piedade Oliveira.
Os dados de mortalidade infantil para a cidade do Rio de Janeiro foram
organizados pela FIOCRUZ e estão apresentados no trabalho de Eleonora
D’Orsi e Marilia Carvalho (D'Órsi & Carvalho, 1998). Os dados do estudo
sobre mortalidade por homicídios na Região Sudeste também foram
publicados pela equipe da FIOCRUZ, e podem ser acessados nas páginas
pessoais dos autores: http://www.procc.fiocruz.br/~marilia/ e
www.procc.fiocruz.br/~oswaldo/.
O número especial dos Cadernos de Saúde Pública sobre o tema de
estatísticas espaciais em saúde (volume 17(5), outubro-novembro 2001),
disponível na Internet (www.scielo.br) representa um bom ponto de partida
sobre o tema, com vários estudos relevantes.
1. ANSELIN, L. SpaceStat tutorial: a workbook for using SpaceStat in the
analysis of spatial data. Santa Barbara, NCGIA (National Center for
Geographic Information and Analysis), 1992.
2. ANSELIN, L. Local indicators of spatial association - LISA. Geographical
Analysis v.27, p.91-115, 1995.
3. ANSELIN, L. The Moran scatterplot as ESDA tool to assess local
instability in spatial association. In: M. Fisher, H. J. Scholten and D.
Unwin (ed). Spatial Analytical Perspectives on GIS. London, Taylor &
Francis, 1996. v., p.111-126.
4. ASSUNÇÃO, R. Estatística Espacial com Aplicações em Epidemiologia,
Economia e Sociologia. São Carlos, SP, UFScar, 2001. Disponível na
homepage www.est.ufmg.br/~assuncao.

A l ld d f
5. BAILEY, T. Spatial Statistics Methods in Health. Cadernos de Saúde
Pública v.17, n.5,, 2001.
6. BAILEY, T. and A. GATTREL. Spatial Data Analysis by Example.
London, Longman, 1995.
7. BRUNSDON, C. A.S. FOTHERINGHAM AND M.E. CHARLTON,
Geographically Weighted Regression: A Method for Exploring Spatial
Nonstationarity. Geographical Analysis, 28(4), 281-298, 1996.
8. CRUZ, O. C. Homicídios no Estado do Rio de Janeiro: análise da
distribuição espacial e sua evolução. Dissertação de mestrado/Faculdade
de saúde Pública-USP, 1996.
ÜííéWLLã~ä~êá~KéêçÅÅKÑáçÅêìòKÄêLúçëï~äÇçLéìÄäáLçÖÅJÇáëëKéÇÑ=
9. DIGGLE, P. Spatial statistics in the biomedical science: future directions.
Lancaster, Lancaster University, 2001.
10. D'ÓRSI, E. and M. S. CARVALHO. Perfil de Nascimentos no Município
do Rio de Janeiro - Uma Análise Espacial. Cadernos de Saúde Pública
v.14, n.1, p.367-379, 1998.
11. FOTHERINGHAM, A.S., C. BRUNSDON AND M.E. CHARLTON,
2000, Quantitative Geography, London: Sage
12. FOTHERINGHAM, A.S., M.E. CHARLTON AND C. BRUNSDON,
The Geography of Parameter Space: An Investigation into Spatial Non-
Stationarity. International Journal of Geographic Information Systems,
10: 605-627, 1996.
13. GELMAN, A., CARLIN, J.B., STERN, H.S., RUBIN, D.B. (1995)
Bayesian Data Analysis Chapman & Hall/CRC.
14. GILKS, W.R., RICHARDSON, S., SPIEGELHALTER, D.J. (orgs) (1998),
Markov Chain Monte Carlo in Practice, Chapman & Hall.
15. MARSHALL, R. Mapping disease and mortality rates using empirical
Bayes estimators. Applied Statistics v.40, p.283-294, 1991.
16. MARTIN, D. Geographic Information Systems: Socioeconomic
Applications. London, Routledge, 1995.
17. MARTIN, D. An assessment of surface and zonal models of population.
International Journal of Geographical Information Systems v.10, p.973-
989, 1996.
18. MARTIN, D. Optimizing census geography: the separation of collection
and output geographies. International Journal of Geographical
Information Science v.12, p.673-685, 1998.

A l ld d f
19. OPENSHAW, S. Developing GIS-relevant zone-based spatial analysis
methods. In: P. Longley and M. Batty (ed). Spatial Analysis: Modelling
in a GIS Environment. New York, John Wiley, 1997. v., p.55-73.
20. OPENSHAW, S. and S. ALVANIDES. Applying Geocomputation to the
analysis of spatial distributions. In: P. A. Longley, Goodchild, M. F.,
Maguire, D. J. and Rhind, D. W (ed). Geographical Information
Systems: Principles, Techniques, Management and Applications.
Chichester, Wiley, 1999. v., p.267-282.
21. SPOSATI, A. Mapa de Exclusão/Inclusão Social de São Paulo. São Paulo,
EDUC, 1996.

A l ld d f
8

MODELAGEM DINÂMICA E GEOPROCESSAMENTO

Bianca Maria Pedrosa


Gilberto Câmara

8.1 INTRODUÇÃO

Historicamente, a tecnologia de Geoprocessamento enfatizou a representação de


fenômenos espaciais no computador de forma estática. Isto se deve ao fato de que a
principal abstração utilizada em Sistemas de Informação Geográficas (GIS) é o mapa.
No entanto, um significativo conjunto de fenômenos espaciais, tais como escoamento de
água da chuva, planejamento urbano e dispersão de sementes, entre outros, são
inerentemente dinâmicos e as representações estáticas comumente utilizadas em GIS
não os capturam de forma adequada. Deste modo, um dos grandes desafios da Ciência
da Informação Espacial é o desenvolvimento de técnicas e abstrações que sejam capazes
de representar adequadamente fenômenos espaço-temporais dinâmicos.
O uso de modelos temporais em GIS vem sendo investigado com afinco na
literatura recente (Worboys 1995). Neste trabalho, estaremos dando ênfase a
abordagem de representação da dinâmica espaço-temporal por autômatos celulares.
Nesta abordagem o espaço é representado através de um array de células em que cada
célula pode assumir diferentes estados ao longo do tempo. O tempo varia em intervalos
discretos e o estado de todas as células muda simultaneamente em função do seu próprio
estado, do estado das demais células em sua vizinhança e de acordo com um conjunto
específico de regras de transição (Engelen 1995).
Neste trabalho, será abordado os requisitos necessários as abordagens utilizadas
para desenvolver sistemas espaciais dinâmicos, os conceitos computacionais e
geográficos envolvidos e algumas das aplicações de Modelagem dinâmica em
Geoprocessamento.
No capítulo 2 serão apresentados os princípios básicos para representar os
principais componentes de um modelo espacial dinâmico. No capítulo 3 serão
abordados os conceitos básicos e os principais aspectos computacionais envolvidos na
modelagem dinâmica de processos físicos. Será apresentado também um exemplo de
modelagem utilizando o aplicativo PCRaster. No capítulo 4 serão apresentados dois
exemplos de aplicações computacionais para modelagem dinâmica de processos
urbanos, o Citylife e o modelo Multi-escala.

1
8.2 PRINCÍPIOS BÁSICOS

A atual geração de GIS configura uma tecnologia estabelecida para armazenar,


organizar, recuperar e modificar informações sobre a distribuição espacial de recursos
naturais, dados geo-demográficos, redes de utilidade pública e muitos outros tipos de
dados localizáveis na superfície da terra. Nesta área, um dos principais desafios para os
próximos anos é transformar estes sistemas, essencialmente estáticos, em ferramentas
capazes de prover representações realistas de processos espaço-temporais. A
modelagem de grande quantidade de processos físicos, em aplicações como
Geomorfologia, Estudos Climáticos, Dinâmica Populacional e Impacto Ambiental,
requer que os GIS tenham capacidade de representar os tipos de processos dinâmicos
encontrados em estudos de sistemas físicos e sócio-econômicos.
Neste contexto, a Modelagem Dinâmica (Burrough 1998) procura transcender as
limitações atuais da tecnologia de Geoprocessamento, fortemente baseada numa visão
estática, bidimensional do mundo. O objetivo dos modelos dinâmicos em GIS é
realizar a simulação numérica de processos dependentes do tempo, como nos modelos
hidrológicos, que simulam o fluxo e transporte de água. Na definição de Burrough, “um
modelo espacial dinâmico é uma representação matemática de um processo do mundo
real em que uma localização na superfície terreste muda em resposta a variações nas
forças dirigidas”.
Tipicamente, GIS são desenvolvidos a partir de suposições pré-estabelecidas
quanto a homogeneidade, uniformidade e universalidade das propriedades de seus
principais componentes, que incluem o espaço e as relações espaciais, o tempo e o
modelo matemático que descreve o fenômeno. Entretanto, para modelar processos
dinâmicos em GIS com o nível necessário de realismo, estas suposições rígidas têm que
ser flexibilizadas de tal forma que o sistema seja capaz de representar (Couclelis 1997):
O espaço como uma entidade não homogênea tanto nas suas propriedades
quanto na sua estrutura.
As vizinhanças como relações não estacionárias
As regras de transição como regras não universais.
A variação do tempo como um processo regular ou irregular.
O sistema como um ambiente aberto a influências externas.

2
regular irregular
Estrutura
Espaço
uniforme não uniforme
Propriedades

estacionária não estacionária


Vizinhança

universal não universal


Função de Transição δ δ1 δ2

regularidade irregularidade
Tempo
fechado aberto
Sistema

Figura 8.1 – Requisitos para modelagem dinâmica em GIS (fonte: Couclelis, 1997)

Na figura 8.1 estão representados os requisitos mencionados acima. A


regularidade do espaço diz respeito a forma como ele é distribuído e pode ser regular,
isto é, divido em parte iguais, ou irregular, distribuído de forma diferenciada. As
vizinhanças, que geralmente são concebidas como tendo a mesma configuração para
todo ponto no espaço, deve superar esta estacionaridade e poder ser representada com
diferentes configurações em diferentes pontos do espaço. Por exemplo, em determinado
ponto uma célula pode ter vizinhança 4 e em outro vizinhança 8. O sistema deve
permitir que mais de uma função de transição possa ser aplicada, permitir que o tempo
seja representado em intervalos variáveis (meses, anos) e suportar a inclusão de
variáveis externas.
Para implementar sistemas espaciais dinâmicos com as características
mencionadas acima, alguns princípios básicos relativos aos principais elementos destes
sistemas devem ser considerados. Entre estes elementos destacam-se a questão da
representação do espaço e do tempo, o modelo dinâmico a ser utilizado para a
representação do fenômeno espacial e a abordagem computacional para implementar
estes princípios de forma integrada e consistente. Nas seções seguintes, discutiremos
cada um destes elementos.

3
8.2.1 O Espaço

O espaço é o conceito chave na geografia e, por extensão, na Ciência da


Informação Espacial. Tradicionalmente, os geógrafos fazem uma distinção entre os
conceitos de espaço absoluto e espaço relativo.
“Espaço absoluto, também chamado Cartesiano ou Newtoniano, é um container
de coisas e eventos, uma estrutura para localizar pontos, trajetórias e objetos. Espaço
relativo, ou Leibnitziano, é o espaço constituído pelas relações espaciais entre coisas e
eventos” (Couclelis 1997).
Santos (1996) refere-se a distinção entre espaço absoluto e espaço relativo como
o “espaço dos fixos” e o “espaço dos fluxos”. Em termos de representações
computacionais pode-se, de forma aproximada, traduzir estes conceitos como a
distinção entre as representações associadas a recobrimentos planares (mapas de
polígonos e matrizes) e representações associadas a conectividade (grafos). Um caso
típico de medida realizada no espaço absoluto são os índices de auto-correlação
espacial. Neste caso, um dos instrumentos básicos é a matriz de proximidade espacial,
cujo cálculo usualmente é feito em função de distância euclidiana entre objetos ou da
existência de uma fronteira entre eles. Na Figura 8.2 está representado um mapa
temático e sua respectiva matriz de proximidade, definida com base nas fronteiras
existentes entre os objetos.

E A

B
C

Figura 8.2 – Um mapa poligonal e sua matriz de proximidade

Em muitos fenômenos geográficos, os objetos estabelecem relações entre si que


independem das relações espaciais típicas como as relações topológicas, direcionais e de
distância. Estes fenômenos geralmente incluem relações como fluxo de pessoas ou
materiais, conexões funcionais de influência, comunicação e acessibilidade, entre outras
(Couclelis 1999). Um exemplo de fenômeno em que a dimensão espacial requer o
4
conceito de espaço relativo é o caso de fluxo de pessoas pela rede de transporte
metroviário de uma cidade. O fluxo de pessoas a partir de uma mesma origem tem
diferentes destinos, Figura 8.3, e a relação entre a origem e destino é estabelecida com
base em relações de conectividade e acessibilidade.

Figura 8.3 – Mapa do Fluxo de Pessoas em uma rede de transporte

Couclelis (1997) propõe a idéia de espaço próximo, como uma extensão dos
conceitos de espaço absoluto e relativo. No espaço próximo o conceito chave é a
vizinhança associada à noção de proximidade, que conduzem também ao conceito de
proximidade funcional ou influência. O conceito de vizinhança é facilmente visualizado
em representações matriciais do espaço. Algumas operações espaciais disponíveis em
GIS como filtros espaciais, por exemplo, utilizam a noção de espaço próximo de forma
limitada. No filtro espacial, o estado de uma célula ( um pixel de uma imagem) é
modificado com base nos estados das demais células em sua vizinhança, definida
através de uma máscara. A seguir é apresentado um exemplo de filtro espacial e o
estado de uma célula qualquer antes (Figura 8.4b) e após (Figura 8.4c) a aplicação do
filtro espacial.

a) Máscara b) estado da célula central antes do filtro c)estado da célula central após o filtro

Figura 8.4 – Exemplo de Filtro espacial

A abstração fundamental na maior parte dos GIS atuais é o conceito de mapa,


fortemente relacionado com noções cartográficas e portanto, do espaço absoluto Em
processos dinâmicos a noção de espaço relativo e próximo são fundamentais para
estabelecer e representar fluxos e conexões entre entidades do sistema.

5
8.2.2 O Tempo

Conceitualmente, pode-se representar o tempo através de diferentes estruturas,


definidas, principalmente, com base em três aspectos da representação temporal:
granularidade, variação e ordem no tempo (Figura 5).

Ordem no tempo Variação Temporal Granularidade


linear discreto instante

ramificado contínuo intervalo

ciclíco período

Figura 5 - Estruturas temporais (fonte: Worboys, 1998)

A ordem temporal refere-se ao modo como o tempo flui. Neste caso, pode-se
assumir que o tempo flui de forma linear, ramificada ou cíclica. No tempo linear
considera-se que o tempo flui seqüencialmente, ou seja, existe uma ordem de
precedência entre os pontos no tempo, de tal forma que cada ponto tenha apenas um
sucessor e um antecessor. No tempo ramificado múltiplos pontos podem ser os
sucessores ou antecessores imediatos de um mesmo ponto. O tempo cíclico é utilizado
para modelar eventos e processos recorrentes (Edelweiss and Oliveira 1994).
Com relação à variação temporal duas possibilidades podem ser consideradas:
tempo contínuo e discreto. Uma variável temporal contínua é usada em processos que
demandam medidas de tempo com níveis arbitrários de precisão. Por exemplo, a
expansão da área de desmatamento de uma floresta entre dois instantes de tempo
medidos pode ser interpolada. A Figura 6 apresenta mapas de uma área desmatada em
dois instantes t e t’. Se necessário, pode-se gerar um novo mapa para representar a área
desmatada entre os instantes t e t’ porque este processo é contínuo no tempo.

Figura 6 – Área Desmatada da floresta em dois instantes t e t’

6
Uma variável temporal discreta é usada quando o tempo é medido em certos
pontos ou intervalos e a variação é descontínua entre estes pontos. Uma delimitação de
lotes de um cadastro imobiliário pode ocupar uma posição num instante t e outra num
instante t’, mas não faz sentido dizer que a delimitação ocupou alguma posição
intermediária entre t e t’. Na figura 7, no instante t existem 4 lotes em uma área
residencial, no instante t’ os lotes 2 e 3 são unidos formando um novo lote 5.

1 2 3 1 5

4 4

Figura 7 – Delimitação de lotes de um cadastro imobiliário em dois instantes t e t’

Associado ao conceito de variação temporal discreta, existe o conceito de


Chronos. Um chronon é a menor duração de tempo suportada por um sistema e pode
variar em diferentes aplicações (Edelweiss and Oliveira 1994).
A granularidade temporal de um sistema está diretamente relacionada com a
duração de um chronon. As diferentes granularidades de um sistema temporal
conduzem à definição de instante e intervalo de tempo. Um instante de tempo
representa um ponto particular no tempo, um intervalo é o tempo decorrido entre dois
instantes e um período consiste de uma seqüência de intervalos de tempo .
Em sistemas computacionais, representa-se o tempo em pelo menos duas
dimensões:
• tempo válido (valid time) - corresponde ao tempo em que um evento ocorre
no domínio da aplicação.
• tempo de transação (transaction time) – corresponde ao tempo em que
transações acontecem dentro do sistema de informação (Worboys 1995).
Adicionalmente, existe o conceito de “tempo definido pelo usuário”, consistindo
de propriedades definidas explicitamente pelos usuários em um domínio temporal e
manipuladas pelo programa de aplicação (Edelweiss and Oliveira 1994).
A incorporação da dimensão temporal em um sistema de informação não se
restringe apenas à questão da representação do tempo, mas inclui também questões
relativas a sua recuperação. Um GIS temporal deve ser capaz de recuperar informações
através de consultas definidas sobre critérios temporais, como por exemplo:
Quais rodovias do Brasil foram recuperadas a partir de 1980 e agora
permitem uma velocidade superior a 100km/h ?
Qual rio teve a maior taxa de poluição entre 1970 e 1985?

7
Quais as cidades em que a cobertura vegetal aumentou em pelo menos 5%
durante os últimos 5 anos?
Para resolver consultas como as relacionadas acima, um GIS tem que prover um
conjunto de operadores e funções que permitam a avaliação de relacionamentos como
os de precedência, sobreposição, igualdade e pertinência entre dois intervalos de tempo
(Figura 8).

Predicado Exemplo
a precedes b

a meets b
a overlaps b

a contains b

a equals b

intervalo a
instante temp
intervalo b

Figura 8 – Predicados temporais (fonte: Voigtmann, 1996)

Para exemplificar consultas envolvendo predicados como os apresentados na


Figura 8, utilizaremos uma linguagem de consulta temporal especialmente
desenvolvida para aplicações em geoprocessamento, chamada T/OOGQL (Voigtmann
1996). Esta linguagem é uma extensão ao SQL (Structured Query Language) com
suporte para tipos de dados espaciais e temporais.
Quanto aos operadores espaciais, a linguagem T/OOGQL oferece os clássicos
cross, overlap, touch e in, entre outros. Quanto aos aspectos temporais, a linguagem
T/OOGQL trabalha com os conceitos de timestamp (definição explícita de tempo
associada a uma informação), tempo válido e tempo transacional, e oferece as seguintes
funções:

8
Função Descrição
First(), Last() retorna o primeiro e último timestamp associado a um
atributo, objeto ou relacionamento
FirstValue(), LastValue() retorna o primeiro e último valor associado a um
atributo, objeto ou relacionamento
Begin(), End() retorna o início e o fim de um timestamp
Period(b,f), Period(d) retorna um período tendo início b e final f ou um
período de duração d
Day(), Month(), Year() construtores de timestamps para descrever um dia, mês
ou ano
date(), time(), datetime() construtores de timestamps para descrever uma data,
hora ou data e hora
years(n), months(n), days(n) retorna um intervalo de tempo com a duração de n dias,
n meses ou n anos

Figura 9 – Funções Temporais do T/OOGQL

A seguir, demonstraremos o uso da linguagem T/OOGQL em alguns exemplos


de consultas que envolvem tanto operadores temporais quanto espaciais:
1. Quais rodovias do Brasil foram recuperadas a partir de 1980 e agora permitem uma
velocidade >= 100km/h ?
select snapshot r
from railroad r, state s
where s.name=“Brasil” and (r cross s or r in s) and
r.max_speed>=100 and
Begin( Year(1980) ) vt_precedes r.max_speed

2. Qual rio teve a maior taxa de poluição entre 1970 e 1985?


query_time:Period (Begin (Year(1970)), End(Year(1985)))
select r.name
from river r
where exists rp in r.pollution:
rp.max_pollution(query_time) >=max (select
max_pollution (query_time) from river_pollution)

9
3. Quais as cidades em que a cobertura vegetal aumentou em pelo menos 5% durante
os últimos 5 anos?
select c.name
from city c
where c.vegetation.coverage(“Wood”,c.geometry,now)
>= min(c.vegetation.coverage(“Wood”,c.geometry,
Period(now-years(5)),now)))+5

Nas consultas apresentadas acima, as cláusulas select, from e where são


similares às de qualquer linguagem baseada em SQL. Os prefixos vt e tt são
abreviações para tempo válido e tempo de transação, respectivamente. As palavra
reservada Snapshot, presente na cláusula select da primeira consulta, tem o mesmo
significado da Linguagem TSQL2 (uma extensão temporal para a linguagem SQL2), ou
seja, gera um resultado de consulta instântaneo, sem timestamps associados (Voigtmann
1996).

8.3 MODELOS

Modelos espaciais dinâmicos descrevem a evolução de padrões espaciais de um


sistema ao longo do tempo. Segundo Lambin(1994) um modelo deve responder as
seguintes questões:
• Quais variáveis ambientais e culturais contribuem para explicar o fenômeno
e quais são os processos ecológicos e sócio-econômicos existentes por trás
do fenômeno?
• Como o processo evolui?
• Onde ocorrem os fenômenos?
Estas questões chaves podem ser identificadas como as clássicas “Porque”,
“Quando” e “Onde”. Um modelo que responde a estas questões é capaz de descrever
quantitativamente um fenômeno e prever sua evolução, integrando suas escalas
temporal e espacial.

10
8.3.1 Tipos de modelos

Um modelo é constituído de pelo menos três elementos: variáveis,


relacionamentos e processos. Ao se construir um modelo, dependendo do objetivo,
pode-se dar ênfase a um ou outro destes elementos. Nesta visão, os modelos podem ser
classificados em empíricos e de sistemas. Modelos empíricos focalizam os
relacionamentos entre as variáveis do modelo, a partir da suposição de que os
relacionamentos observados no passado continuarão no futuro. Modelos de sistemas são
descrições matemáticas de processos complexos que interagem entre si, enfatizando as
interações entre todos os componentes de um sistema (Lambin 1994).

Modelos

Empíricos Sistema

Cadeias Logísticos Regressão Simulação Dinâmico

Figura 8.10 – Tipos de modelos

8.3.1.1 Modelos Empíricos

Os modelos empíricos, em sua dimensão procedural, possuem três componentes


chaves: uma configuração inicial, uma função de mudança e uma configuração de saída.
A configuração inicial de um modelo dinâmico pode ser obtida através de dados
históricos do fenômeno em estudo, chamados de séries temporais. Neste caso, equações
diferenciais (totais ou parciais) que incluem pelo menos um termo derivado no tempo
podem ser utilizadas para representar o modelo e o processo é classificado como
determinístico. Quando variáveis aleatórias são utilizadas para explicar um sistema o
processo é classificado como estocástico-probabilístico.
Modelos empíricos são caracterizados pela simplicidade dos modelos
matemáticos empregados e pelo número reduzido de variáveis envolvidas. Este
modelos são eficientes em fazer predições, embora apresentem limitações em abordar a
evolução espacial e identificar os aspectos causais do sistema. A seguir, serão
apresentados três modelos empíricos: cadeias de markov, modelos logísticos de difusão
e modelos de regressão.

11
Cadeias de Markov

Cadeias de Markov são modelos matemáticos para descrever processos


estocásticos e podem denotadas por:

Π(t+1)= Pn.Π(t)
onde Π(t) é o estado do sistema no tempo t, Π(t+1) é o estado do sistema após o
intervalo t+1 e Pn são os estados passíveis de acontecer, que são representados em
matrizes de possibilidades de transição. Essas matrizes de transição representam a
possibilidade de um determinado estado i permanecer o mesmo ou mudar para o estado
j durante o intervalo de tempo t->t+1. As probabilidades de transição são usualmente
derivadas de amostras relativas a um certo intervalo de tempo. Cadeias de Markov de
1a ordem assumem que o estado futuro do sistema depende apenas do seu estado
presente e das possibilidades de transição, sendo independente da trajetória que o levou
aquele estado (estados em um tempo t-1). Este modelo não ignora o passado, mas
assume que toda a informação do passado está concentrada no presente estado do
sistema. Desta forma, as interações são instantâneas, sendo irrelevante o tempo de
permanência das variáveis em cada estado (Soares Filho 1998).
Outra característica das cadeias de Markov é que as probabilidades de transição não
mudam com o tempo, o que o caracteriza como um processo estacionário.
As principais vantagens das cadeias de Markov são a simplicidade operacional e
matemática do modelo aliadas a facilidade com que podem ser aplicadas a dados
provenientes de sensoriamento remoto e implementadas em GIS. Outra grande
vantagem é o fato de não necessitar de grande quantidade de dados antigos para prever
o futuro.
As principais limitações das cadeias de markov incluem o fato do modelo não explicar o
fenômeno (Porque) e ser limitado na resposta espacial (Onde), entretanto o modelo pode
pode fazer predições (Quando) desde que os processos sejam estacionários. Além
disto, o modelo não suporta de imediato a inclusão de variáveis exógenas como
variáveis sócio-econômicas ou outras forças dirigidas, embora esta limitação possa ser
superada. Em (Lambin 1994) são apresentadas várias abordagens para superar as
principais limitações de cadeias de Markov em modelagem dinâmica.

12
Modelos logísticos de Difusão
Modelos logísticos são utilizados para descrever matematicamente fenômenos
em que as variáveis inicialmente apresentam variações em um ritmo lento, depois o
ritmo de variações se intensifica, voltando a reduzir-se até que o nível de saturação seja
atingido. Este modelo leva em conta as interações temporais entre as variáveis do
sistema, podendo ser expresso por:
dP/dt = r P [ (U - P) / U]
onde P é a variável de um fenômeno de crescimento ao longo do tempo t, como
aumento da população, por exemplo; r é a taxa de crescimento e U uma função de
crescimento (Lambin 1994). Dentre os modelos baseados em funções logísticas
destacam-se os modelos de difusão. Tais modelos enfatizam a velocidade do processo e
permitem a inclusão de variáveis relacionadas às causas do fenômeno.
Os principais elementos de um modelo espacial de difusão são (Soares Filho
1998):
• meio ambiente (isotrópico ou heterogêneo)
• tempo (contínuo ou discretizado)
• item a ser difundido (material, pessoas, informação, doença)
• locais de origem
• locais de destino
• caminhos a serem percorridos
Estes elementos interagem entre si através de um mecanismo em que pode-se
identificar quatro estágios:
• Estágio inicial – neste estágio tem início o processo de difusão.
• Estágio de difusão – tem início o processo de espalhamento
• Estágio de condensação – diminui o ritmo do espalhamento.
• Estágio de saturação – ocorre a desaceleração ou encerramento do processo
de difusão.
O processo de espalhamento em modelos de difusão pode se dar por expansão
ou realocação. Nos modelos de difusão por expansão a informação ou material se
espalha de uma região para outra, permanecendo na região original. Nos modelos de
difusão por realocação os objetos se movem para novas regiões, abandonando as área
originais (Soares Filho 1998). Modelos de difusão não explicam as causas de um
fenômeno, embora possam integrar variáveis ecológicas e sócio-econômicas. Sua maior
contribuição está na predição do comportamento futuro do fenômeno. Quanto à
dimensão espacial, o modelo em si não a incorpora, mas ela pode ser introduzida através
da integração deste modelo com um GIS (Lambin 1994).

13
Modelos de Regressão
O objetivo dos modelos de regressão é estabelecer relações estatísticas entre um
fenômeno em estudo e as variáveis independentes, chamadas forças dirigidas, que
exercem influência sobre ele. Sendo assim, o modelo suporta a inclusão de variáveis
exógenas como as sócio-econômicas. Isto contribui para o entendimento do fenômeno
em estudo, mas é insuficiente para explicá-lo, pois a identificação de um relacionamento
estatístico entre duas variáveis por si só não estabelece um relacionamento causal entre
elas. Por exemplo, pode-se identificar através de um modelo de regressão que o
crescimento populacional tem relação com o crescimento do desmatamento de uma
determinada região, entretanto, o modelo de regressão não explica os mecanismos que
ligam estas variáveis (Lambin 1994).
Matematicamente, o modelo estabelece um relacionamento linear entre as
variáveis dependentes e independentes através da expressão:
y= a0 + a1 x1 + a2x2 + ... + aixi + E
onde:
y = mudança ocorrida em um determinado tempo
xi = variáveis independentes (forças dirigidas)
Ai = Coeficientes de regressão dos relacionamentos
E = Componente de erro

Em modelos de regressão a dimensão temporal é considerada, mas a distribuição


espacial do fenômeno não é abordada, limitação esta que pode ser superada se o modelo
for combinado com GIS. Outra limitação deste modelo é que ele se aplica apenas a
processos estacionários (Lambin 1994).
Um exemplo de modelo de regressão é o implementado por Reis e Margulis
(1991) para modelar o desmatamento da Amazônia em função da densidade espacial das
atividades econômicas da região. Neste modelo, num primeiro estágio, áreas
desmatadas são relacionadas com a densidade populacional, áreas cultivadas, distância
de centros urbanos e proximidade de rodovias, entre outras variáveis. Num segundo
estágio, o modelo relaciona o crescimento de determinadas atividades (colonização,
cultivo, pecuária) entre 1980 e 1985 com a densidade destas atividades em 1980,
obtendo assim o padrão de crescimento espacial de cada atividade. Então, partindo da
suposição de que este padrão espacial de crescimento irá se manter no futuro, o modelo
faz projeções sobre a tendência de desmatamento para o período de 1985-2000 (Lambin
1994).

14
8.3.2 Modelos de Sistemas

Modelos de sistemas procuram descrever o sistema como um todo, isto é,


tentam representar as interações entre todos os seus componentes. Uma característica
chave destes modelos é a eficiência com que abordam a dimensão espacial,
implementando conceitos como as relações de vizinhança e suportando o uso
combinado de múltiplas escalas. A seguir, descreveremos as características de gerais de
duas classes de modelos de sistema: os modelos de simulação de ecossistemas e os
modelos de simulação dinâmica espacial.
Modelos de Simulação de Ecossistemas
Modelos de Ecossistemas são projetados para imitar o comportamento de um
sistema, enfatizando as interações entre todos os seus componentes. Estes modelos são
baseados na composição de ecossistemas complexos em um número de equações
diferenciais (Lambin 1994). A construção de um modelo de simulação requer que os
principais aspectos que afetam o fenômeno estejam bem integrados, que seus
relacionamentos funcionais estejam bem representados e que o modelo possa predizer
os impactos ecológicos e econômicos das mudanças ao longo do tempo.
Estes modelos são adequados para representar processos não estacionários, mas
apresentam limitações quanto ao aspecto espacial, pois tratam o espaço como uma
entidade homogênea (Lambin 1994).
Modelos de Simulação Dinâmica Espacial
Modelos de Simulação Dinâmica Espacial baseiam-se em modelos de
ecossistemas com extensões para acomodar a heterogeneidade espacial e processos
humanos de tomada de decisão.
Uma abordagem para desenvolver modelos de simulação dinâmica espacial é
representar o espaço como uma matriz de células e aplicar as equações matemáticas a
cada uma das células da matriz, simultaneamente. Cada célula do modelo está
conectada com suas células vizinhas, de tal forma que é possível estabelecer um fluxo
entre células adjacentes. Isto simplifica sobremaneira o mecanismo de predições do
sistema porque por exemplo, se uma célula tem três vizinhos com estado x, é altamente
provável que o estado desta célula venha a ser x também. Entretanto, este raciocínio
simplista pode ser aperfeiçoado em regras de transição. Outro aperfeiçoamento desse
modelo é a possibilidade de incorporar processos de tomada de decisões. Modelos que
incorporam este mecanismo são chamados modelos baseados em regras. As regras de
tomada de decisão são representadas através de abstrações muito semelhantes àquelas
que ocorrem na mente humana.
Um exemplo de modelo com as funcionalidades mencionadas acima é o DELTA
(Dynamic Ecological Land Tenure Analisys), um sistema desenvolvido para integrar

15
aspectos sócio-econômicos da colonização amazônica e aspectos ecológicos do
desmatamento e da liberação de carbono no Estado de Rondônia.
O DELTA consiste em três submodelos integrados que simulam,
respectivamente, a difusão da colonização, mudança do uso do solo e liberação de
carbono. Os submodelos são examinados em diferentes escalas, o que caracteriza o
modelo como muit-escala. Além disto, o modelo é considerado “a playing game tool”,
pois não se restringe a fazer predições, mas sim a servir como instrumento para
responder “what if questions” (Lambin 1994).
Para finalizar, um resumo das características chaves de cada tipo de modelo,
segundo o potencial de cada um deles para responder as perguntas porque, quando e
onde é apresentado a seguir:
Modelo Porquê Quando Onde
Cadeias de não pode explicar a razão pode predizer a pode predizer
de um fenômeno por ser evolução de processos distribuições
Markov
processo estocástico e estacionários espaciais de
não suportar a inclusão de elementos do
variáveis exógenas modelo se for
combinado com GIS
Logístico de permite a inclusão de suporta a dimensão pode predizer
Difusão poucas variáveis temporal, podendo distribuições
exógenas, entretanto é um predizer a evolução espaciais de
modelo descritivo, não de processos não elementos do
suportando investigações estacionários modelo se for
exploratórias combinado com GIS
Regressão contribui para identificar pode predizer a não são modelos
forças direcionadoras, evolução de processos espaciais, entretanto
entretanto são modelos estacionários podem ser
descritivos, não sendo combinados com
capaz de estabelecer GIS
relações causais entre as
variáveis
Simulação de modelo exploratório que pode formular apresenta
Ecossistemas requer descrições cenários de mudanças dificuldades na
funcionais dos sistemas futuras no uso do representação
ecológicos solo, baseado nos espacial
parâmetros do modelo
Simulação requer modelos funcionais pode predizer pode predizer
Espacial espacialmente definidos mudanças temporais evolução de padrões
no uso do solo, espaciais em
Dinâmica
baseado nos processos
parâmetros do modelo determinísticos

16
8.3.3 Autômatos Celulares

Em 1982 John Conway apresentou o Jogo da Vida (The Game of Life),


demonstrando que regras muito simples quando aplicadas repetidamente sobre estados
aleatórios, produzem resultados semelhantes à forma como certos sistemas evoluem no
mundo real. No Jogo da Vida o espaço é representado como uma grade de células,
algumas das quais estão vivas e outras mortas. Dado um estado inicial aleatório, a cada
geração, novas células nascem e algumas morrem. O que determina o estado de uma
célula é sua vizinhança que, neste caso, é definida por quatro células adjacentes. Uma
célula viva morre se tiver duas ou três células vizinhas vivas. Por outro lado, uma
célula morta renasce, se tiver três células vizinhas vivas. Este sistema deu grande
popularidade aos conceitos de autômatos celulares, que foram inicialmente
apresentados por John Von Newmann (Roy, 1996) .
Nos últimos anos, os conceitos de autômatos celulares tem sido utilizados para
modelar fenômenos físicos e urbanos (Batty 1999, Burrough, 1998; Roy, 1996;
Engelen, 1995; Câmara, 1996). Nesta abordagem o espaço é representado por um
mosaico de células, geralmente de tamanhos e formatos idênticos (regular tesselations).
Algumas das formas mais simples utilizadas para representar células em autômatos
celulares são apresentadas na figura 8.12.

Figura 8.12 – Representações de células em autômatos celulares (fonte: Câmara,


1996)

Sobre cada célula de um autômato celular são aplicadas regras de transição.


Regras de transição determinam quando e porque o estado de uma célula se altera e
podem ser qualitativas ou quantitativas.
Para ilustrar como se dá o mecanismo de aplicação das regras de transição,
apresentaremos um exemplo simples baseado em (Câmara 1996). Neste exemplo, uma
célula pode assumir dois estados (branco e preto) e sua vizinhança é definida sobre duas
células adjacentes. As regras de transição especificam que o estado de uma célula num
instante t+1 é igual ao dos seus vizinhos no instante t, se estes vizinhos tiverem os
estados iguais; caso contrário, o estado da célula permanece o mesmo. Para entender o
exemplo é necessário identificar os componentes básicos do autômato celular clássico,
que são:
17
• espaço euclidiano, dividido em um array de células
• uma vizinhança de tamanho e formato definidos (Figura 13a)
• um conjunto de estados discretos (Figura 13b)
• um conjunto de regras de transição (Figura 13c)
• um conjunto de intervalos de tempo, com atualização simultânea das células
(Figura 13d)

a) vizinhança c) regras de transição d) exemplo

b) estados
instante t

instante t+1

Figura 8.13 – Exemplo de autômato celular (Fonte: Câmara,1966)


A dinâmica de aplicação das regras de transição em um autômato celular é
semelhante a de um filtro espacial. Desta forma, todas as células são avaliadas e,
quando for o caso, modificadas para um novo estado. Na figura 13 d, a primeira célula
da segunda linha do autômato tem, no instante t, o estado branco e suas vizinhas
possuem estados diferentes (uma é branca e outra preta). Neste caso o estado da célula
permanece o mesmo (1a regra de transição). Seguindo o mesmo mecanismo, a segunda
célula da segunda linha, tem no instante t o estado preto e suas vizinhas tem ambas o
estado branco, logo o estado desta célula sofre uma transição para branco (2a regra de
transição). O processo segue este mecanismo para as demais células até que todas
tenham sido avaliadas.
No exemplo acima, pode-se observar que as mudanças geradas por autômatos
celulares são estritamente locais, isto é, baseadas nas vizinhanças de cada célula. Nesta
perspectiva, pode-se dizer que sua aplicação é eficiente em processos em que a ordem
global emerge de ações locais e descentralizadas (Batty 2000).

18
8.4 MODELAGEM DINÂMICA DE PROCESSOS FÍSICOS

Na seção anterior foram apresentados os princípios básicos relativos aos


principais componentes de um modelo espacial dinâmico. Estes modelos são utilizados
para explicar a ocorrência de um fenômeno, seu padrão espacial e sua evolução ao
longo do tempo, respondendo assim às questões chaves porque, onde e quando,
respectivamente. Dentre as diversas aplicações da modelagem espaço-temporal
podemos identificar dois grandes grupos de processos: os físicos e os de planejamento
urbano. Estes grupos possuem variáveis e comportamentos diferenciados que exigem
diferentes abordagens de implementação. Nesta seção focalizaremos alguns aspectos
computacionais presentes em modelagem dinâmica de processos físicos e
apresentaremos um exemplo de modelagem dinâmica utilizando o aplicativo PCRaster.

8.4.1 Aspectos Computacionais

Fenômenos físicos tais como o escoamento da água da chuva e a difusão de


plantas, encontrados na hidrologia e ecologia, respectivamente, são exemplos de
fenômenos com alto índice de variação do estado da superfície ao longo do tempo. A
complexidade dos modelos dinâmicos depende da dimensão em que tais modelos
operam, 2 ou 3D, e dos equacionamentos matemáticos que utiliza . O mais simples dos
modelos dinâmicos é chamado modelo pontual sem memória. Neste modelo, o estado
de uma célula é modificado apenas pela variável fornecida como entrada para esta
célula em um determinado instante t (Figura 14a). As demais células, bem como o
estado desta célula em instantes anteriores não afetam o estado da célula naquele
momento. Sendo assim, o estado de uma célula num processo pontual sem memória é
uma função matemática operando na variável de entrada da célula no instante t (Figura
14b).

Si(t) = ƒ(Ij(t))
a) b)
S

Figura 14 – Célula cujo estado depende apenas da variável de entrada (I) (fonte:
Burrough, 1998)

19
Processos pontuais com memória referem-se a processos em que o estado de uma
célula no instante t+1 retêm informações sobre seu estado no instante t. A memória da
célula é determinada por uma função g operando no estado inicial da célula (Figura
15b). Um exemplo clássico para ilustrar o caso de processos pontuais com memória é o
caso da água da chuva no solo. Quando o solo não consegue mais absorver água deve
ocorrer algum transporte de material. Neste caso esta distribuição de material pode ser
feita verticalmente, isto é, das células superiores para as inferiores (fluxo gravitacional –
Darcy’s law) , como mostra a Figura 15a.

b)
Si ( t+1 ) = g ( Si ( t ) )+ƒ ( Ij )
a)
S1

S2

Figura 15 – Célula com adjacência vertical (fonte: Burrough, 1998)

Outra forma possível de transporte de material, considerando ainda o exemplo da água


da chuva no solo, é através da adjacência lateral (processo de dispersão), Figura 16a.
Neste caso existem mais variáveis envolvidas, o estado de uma célula depende do seu
estado anterior, do fluxo de material e das entradas naquele intervalo de tempo (Figura
16b).

I1 I2 I3

a) S1 S2 b) Si(t+1)=g(Si(t)+ ƒ(Ii)) + Fin(t)


F1 F2

Figura 16 – Célula com adjacência horizontal (fonte: Burrough, 1998)

As células podem também ser conectadas por ligações topológicas (Figura 17). Estas
ligações geralmente são baseadas em aspectos físicos do transporte de material. No
caso da água de chuva, uma boa orientação para modelar o fluxo de material de célula
para célula é conhecer a topologia do terreno.
Para que o fluxo de material de célula para célula possa ser computado a partir da
topologia do terreno é necessário modelar esta topologia em uma forma
computacionalmente apropriada. As redes Local Drain Direction (LDD), Figura 18,
apresentam uma estrutura de dados computacional que viabiliza a interação entre as
células. Nesta estrutura, que corresponde a um array de células (cellarray), cada célula

20
possui um atributo que indica a direção de fluxo. Esta direção pode ser para um dos
seus oito vizinhos, considerando o espaço 2D.

I1

S I
I
F
S
S3
F

Figura 17 – Células com adjacência direcionada pela topologia (fonte: Burrough, 1998)

Para gerar a rede LDD existem vários algoritmos dentre os quais o D8


(Deterministic algorithm) destaca-se pela sua simplicidade (Burrough and McDonnel
1998). Neste algoritmo, a direção do fluxo é determinada pela direção mais inclinada
dentro de uma janela 3x3 de células. Numa rede LDD existem dois tipos de células
upstream e target. A célula target é a célula para onde todo o fluxo é direcionado. As
demais células são chamadas upstream.
Cu Cu Cu Cu Cu

Cu Cu Cu Cu Cu

Cu Cu Cu Cu Cu

Cu Cu Cu Cu Cu

Cu Cg Cu Cu Cu

Figura 18 – Local Drain Direction (fonte: Burrough, 1998)

O material pode fluir por uma rede LDD a partir de diferentes funções, tais como:
• fluxo acumulado - calcula o novo estado dos atributos de uma célula, somando o
valor original da célula mais a soma acumulada de todos as células upstream, cujo
fluxo passa por esta célula;
• capacidade de transporte de uma célula - limita o fluxo de célula para célula a uma
atributo de capacidade de transporte fornecido em valores absolutos;
• fração de transporte - limita o fluxo sobre a rede a um parâmetro que controla a
proporção de material que pode fluir por cada célula.

21
• valor limite – modifica o acúmulo de fluxo sobre a rede limitando o transporte de
valores superiores a um determinado limite mínimo por célula.
• valor de disparo – permite o fluxo de material apenas se um valor de disparo for
excedido.

8.4.2 PCRaster

Para demonstrar a aplicabilidade dos conceitos vistos nas seções anteriores,


apresentaremos um exemplo de fenômeno físico que requer modelagem dinâmica para
ser representado. Para modelar este fenômeno utilizaremos um aplicativo chamado
PCRaster.
PCRaster é um toolkit para modelagem dinâmica que opera no modo matricial
(Raster) e oferece um conjunto de ferramentas para análise espacial e temporal, funções
para dispersão espacial e transporte sobre redes topológicas e um conjunto de metódos
geoestatísticos para interpolação e simulação espacial. No PCRaster os resultados
podem ser exibidos de forma dinâmica em 2 ou 3D. Para ilustrar o uso do PCRaster
utilizaremos como exemplo um caso de escoamento de água da chuva em uma Bacia.
Para modelar este processo é necessário fornecer como entradas para o sistema o
Modelo Numérico do Terreno (MNT) e as séries temporais com os dados de
precipitação pluviométrica. A partir do MNT (Figura 20) é gerada a rede LDD, que é a
rede de drenagem por onde a água excedente flui. A água excedente é toda a água que
não foi infiltrada, por já ter excedido a capacidade de infiltração da célula. Para
determinar o padrão espacial do processo de infiltração, um mapa de solos da área em
estudo tem que ser fornecido. A partir destes dados, o programa é executado e gera um
conjunto de mapas resultantes (Figura 19).

d) Mapa de solos

a) MNT
rain in two rain areas for 1993, time = 1: november; time =
12: october
3
model time
rain (mm/month) in rain area 1, id = 1
rain (mm/month) in rain area 2, id = 2
1 74 75
2 71 71
3 74 76
4 58 59
5 40 40
6 40 42
7 45 47

c) TSS
b) LDD

PROGRAMA PCRASTER

e)mapas resultantes

Figura 19 – Esquema simplificado das entradas e saídas do PCRaster

22
As séries temporais são arquivos ascii, contendo dados armazenados de forma
tabular (Figura 21). Os dados fornecidos na séries temporais são utilizados para
calcular o novo estado das células. Uma das funções de fluxo de material, comentadas
na seção anterior, é selecionada pelo usuário para calcular o fluxo de água de célula
para célula.

rain in two rain areas for 1993, time =


1: november; time = 12: october
3
model time
rain (mm/month) in rain area 1, id = 1
rain (mm/month) in rain area 2, id = 2
1 74 75
2 71 71
3 74 76
4 58 59
5 40 40
6 40 42
7 45 47
8 62 64
9 80 78
10 80 85
11 75 79
Figura 20 - MNT da área de estudo 12 67 69

Figura 21 – Série temporal dos índices


pluviométricos

Um programa PCRaster (arquivos .mod) é organizado em cinco seções: binding,


areamap, timer, initial e dynamic. A seção binding é onde são definidas as ligações
entre as variáveis do programa e os arquivos. Estas ligações tem dupla direção, tanto
podem determinar que as variáveis serão gravadas nos arquivos especificados (caso em
que é executado um comando report na seção dynamic), quanto podem apenas indicar
que as variáveis receberão valores provenientes dos arquivos especificados. Depois, na
seção areamap, deve ser definido o formato geral dos mapas do modelo. Todos os
mapas utilizados em um modelo devem ter o mesmo tamanho, localização geográfica e
resolução. Na seção timer, o domínio de tempo do modelo é definido através de uma
declaração que fornece os tempos inicial e final da execução do modelo, bem como o
intervalo ou passo em que este tempo deve variar ao longo da execução do modelo. A
seção initial é utilizada para inicializar as variáveis do programa. Esta seção é
executada antes da primeira execução da seção dynamic. A seção dynamic é a parte
principal de um programa PCRaster. Descreve as mudanças temporais das variáveis ou
mapas do modelo. A principal característica desta seção é ser iterativa, isto é, é
repetida, do início ao final, para todo o intervalo de tempo definido na seção timer.
A seguir é apresentado um exemplo de programa PCRaster para calcular a precipitação
da bacia, de nosso exemplo.

23
# model for simulation of rainfall
# one timeslice represents one month

binding
RainTimeSeries=rain12.tss;# timeseries with rainfall (mm) per month
# for two rain areas
Precip=rain; # reported maps with precipitation,
# rain is suffix of filenames
RainAreas=rainarea.map; # map with two rain areas

areamap
clone.map;

timer
1 12 1;

initial
# this section is empty

dynamic
# precipitation
report Precip=timeinputscalar(RainTimeSeries,RainAreas);

Figura 22 – Programa PCRaster para calcular a precipitação

No programa acima, na seção binding as variáveis dos programas foram


associadas a arquivos do Banco de dados. A declaração
RainTimeSeries=rain12.tss; especifica que será utilizada a série temporal
armazenada no arquivo rain12.tss (Figura 21). Depois, na declaração Precip=rain;
é definido que o nome dos mapas de precipitação resultantes serão gravados em
arquivos nomeados por rain0000.xxx(onde xxx varia de 001 a 012, porque a
precipitação será calculada para 12 meses, conforme definido na seção timer). Na
seção timer é especificado 1 12 1, que significa que o programa deve executar a
seção dynamic 12 vezes, a variável que controla estas repetições começa com o valor
1 e é incrementada no passo 1. Na seção dynamic, a precipitação é calculada através
da expressão report Precip = timeinputscalar (RainTimeSeries,
RainAreas); onde: Timeinputscalar é uma função que requer dois
parâmetros: a série temporal e o mapa sobre o qual deve ser calculada a precipitação.
Depois de calculada a preciptação , pode-se facilmente estender o programa
anterior para calcular a precipitação total em m3/s. Para isto, basta incluir na seção
dynamic a seguinte expressão:

report VolumePrecip=maptotal(Precip)*(cellarea()/2628);

onde 1/2628 é o fator de conversão da área celular (Km2) e Precip(mm/month) para


m3/s.

24
Nesta instrução a operação maptotal calcula a soma dos valores das células em
Precip. Esta soma é multiplicada pela área de uma célula do mapa (cellArea()) e
dividida pelo fator de conversão para m3/s.
Para calcular a precipitação efetiva, a evapo-transpiração deve ser incluída no
modelo. Assumindo que as condições do solo não influenciam na taxa de evapo-
transpiração, pode-se calcular a evaporação para um mês (Evap, mm/mês) através da
expressão:

Evap=K * EvapRef

onde:
• EvapRef é uma referência , um padrão da superfície do solo durante o mês em
questão. Existe um valor diferente para cada mês e para cada classe de uso do solo.
• K é um coeficiente constante no tempo para uma classe de uso do solo.
Depois, calcula-se a preciptação excedente, através da expressão:
PrecipSurplus = Precip – Evap;
Se a precipitação excedente for positiva em um mês, será adicionada ao solo.
Se a quantidade máxima de água no solo for atingida, a parte restante do excedente não
será mais adicionada no solo. Esta quantidade é chamada água excedente no solo e
será escoada para o subsolo. Quando a precipitação excedente for negativa, a
quantidade de água no solo será subtraída, em valores absolutos, pela precipitação
excedente naquele mês.
Depois de calculada o balanço de água no solo, pode-se estender o modelo para
para modelar o escoamento de água na área em estudo. Isto é feito com o mapa de
direção de drenagem local (local drain direction map – ldd ).
Uma função de transporte de material tem que ser selecionada. Neste exemplo
vamos utilizar a função de fluxo acumulado, que no PCRaster é implementada com o
nome de accuflux e tem a seguinte sintaxe:

Resultfluxmap = accuflux(lddmap, materialmap);

onde: lddmap é a rede ldd (Figura 23), materialmap é um mapa do material


a ser transportado e Resultfluxmap é o mapa resultante. Na Figura 8.24 é apresentada a
seção dynamic do programa PCRaster que implementa o modelo descrito.

25
Figura 23 - LDD

dynamic
# precipitation
report Precip=timeinputscalar(RainTimeSeries,RainAreas);
# total volume precipitation over study area, in cubic metres per second
report VolumePrecip=maptotal(Precip)*(cellarea()/2628);
# reference evapotranspiration
EvapRef=timeinputscalar(EvapRefTimeSeries,1);
# evapotranspiration
report Evap=K*EvapRef;
# precipitation surplus
report PrecipSurplus=Precip-Evap;
# intermediate soilwater content: soilwater plus precipitation surplus
Soilwater=Soilwater+PrecipSurplus;
# soil water surplus (mm/month)
report SoilwaterSurplus=max(Soilwater-MaxSoilwater,0);
# soilwater content, no saturation
report Soilwater=min(Soilwater,MaxSoilwater);
# discharge in mm/month
DischargeMM=accuflux(Ldd,SoilwaterSurplus);
# discharge in metres3/second
report Discharge=DischargeMM*(cellarea()/2628);

Figura 24 – Seção dynamic de programa PCRaster para escoamento da água da


chuva

26
8.5 MODELAGEM DINÂMICA DE PROCESSOS URBANOS

Na modelagem dinâmica de processos urbanos, os autômatos celulares são


usualmente utilizados para modelar o uso do solo. Tradicionalmente, autômatos
celulares são implementados segundo critérios estritamente locais, isto é, a dinâmica de
aplicação das regras de transição baseiam-se principalmente na vizinhança de uma
célula. Entretanto, em muitos casos de processos urbanos, a função de transição deve
levar em conta diferentes fatores, incluindo: os efeitos da vizinhança, a qualidade do
solo (fator ambiental), as taxas demográficas da região (fator social), a demanda por
uma determinada atividade econômica e o comportamento dos agentes econômicos.
Nesta seção, para representar a modelagem dinâmica de processos urbanos
serão apresentadas duas aplicações diferentes. A primeira consiste numa aplicação
baseada nos princípios básicos de autômatos celulares, proposta por (Roy and Snickars
1996). A segunda aplicação, chamada Modelo Multi-Escala Integrado (Engelen 1995),
apresenta uma estrutura sofisticada, capaz de integrar as variáveis sócio-econômicas e
ambientais de sistemas urbanos.

8.5.1 Citylife

Numa tentativa de estudar a aplicabilidade de autômatos celulares na dinâmica


urbana, (Roy and Snickars 1996) implementou o Citylife, baseado no The Game of life.
No Citylife o espaço é representado como uma grade regular de células em que cada
célula representa uma unidade do espaço ocupada por alguma atividade urbana típica,
como por exemplo: área verde, residencial e trabalho. A partir de um estado inicial e
um conjunto de regras de transição, o sistema cresce e evolui espacialmente.
Cada célula no sistema tem uma atratividade para cada tipo de atividade urbana
definida pela função:
Ai(k) = Σ b(k,l)*ai(l)
onde: b(k,l) é um coeficiente que indica a probabilidade de uma célula do tipo
k se transformar em uma célula tipo l (Tabela 1).
ai (l) “acessibilidade” da célula i para células contendo uma atividade do tipo l.
Definida pela função:
ai(k) = Σ exp (- µ (k) * dij(k))*xj(k)/N(k)
j

onde: xj(k) = 1 se a célula j é utilizada para a atividade k, 0 caso contrário;


dij(k) = distância da célula i para a célula j para uma atividade do tipo k
µ (k) = coeficiente de “acessibilidade” para uma atividade do tipo k
N(k) = número de células contendo uma atividade do tipo k, onde Σj
xj(k)=N(k)

27
Dado um estado inicial, o sistema aloca novas células para cada uma das
atividades disponíveis. O número de células a ser alocado para cada atividade depende
do número de células do estado inicial. Assim, por exemplo se no estado inicial são
alocadas duas células para áreas verdes, duas células para área de trabalho e quatro
células para áreas residenciais (Figura 25 a), então a cada geração o sistema alocará
mais duas células para áreas verdes, mais duas células para áreas de trabalho e quatro
células adicionais para área residenciais. O critério para seleção de uma célula é a sua
atratividade para a atividade, será selecionada a célula com maior atratividade (Ai(k)).

b
área verde
área residencial
área de trabalho
c
Figura 25 – Citylife a) estado inicial b)após 10 gerações c) após 20 gerações
(fonte: Roy and Snickars 1996).

O mecanismo de expansão do Citylife é considerado evolucionário (estado


futuro do sistema depende da trajetória seguida) e baseado na competição entre as
células (Roy and Snickars 1996).
Para o exemplo apresentado na Figura 25 adotou-se o seguintes coeficientes de
interação entre as atividades:

28
Verde ResidencialTrabalho
Verde 1 0 0
Residencial 0 1 0
Trabalho 0 0 1
Tabela 1 – Coeficientes de probabilidade

Uma restrição do citylife é considerar que uma vez que uma célula for ocupada
por uma atividade ela permanecerá nesta atividade. Desta forma, este sistema adota um
modelo dinâmico espacial de difusão por expansão e não de realocação.

29
8.5.2 Modelo Multi-Escala Integrado

Como já mencionado, fatores sócio-econômicos são inerentes ao planejamento


urbano. Na literatura recente, verifica-se uma tendência de propostas de extensões ao
modelo de autômato celular clássico, visando integrar fatores ambientais e sócio-
econômicos, para representar a dinâmica espacial de fenômenos urbanos.
Entre estas propostas destaca-se a de Engelen (1995), que apresenta uma
estrutura de modelagem dinâmica e de suporte a decisão capaz de operar em uma
variedade de escalas. Esta estrutura é constituída de dois níveis denominados macro e
micro escalas. Na macro escala estão representadas as variáveis ecológicas e sócio-
econômicas que afetam o sistema como um todo. A micro escala representa a dimensão
espacial do modelo. Estas escalas interagem intensivamente entre si e com um Bando
de Dados Geográfico, a partir do qual obtêm os dados necessários para as simulações
(Figura 26).
A macro escala possui três componentes representando os subsistemas natural,
econômico e social. Estes sub-modelos estão conectados através de uma rede de
influência mútua e recíproca. O subsistema natural representa condições ambientais
tais como temperatura, precipitação e poluição. O subsistema social inclui dados
demográficos como nascimentos, morte e migração. O subsistema econômico é
fortemente determinado pelas mudanças ocorridas no subsistema natural e pelas
demandas sociais. Neste sentido, ele pode gerar demandas como, por exemplo, a
necessidade por mais células residenciais quando a população aumenta.
A micro escala consiste em um autômato celular sobre o qual são aplicadas
regras de transição para calcular as mudanças no uso do solo.
Para ilustrar o uso deste modelo, consideraremos dados de um estudo para
analisar os impactos de mudanças climáticas em uma ilha do Caribe. Estes dados estão
disponíveis na homepage do RIKS (Research Institute for Knowledge Systems –
www.riks.nl ).
Neste exemplo, a macro escala inclui no subsistema natural apenas mudanças
climáticas, no subsistema social inclui dados relativos a população, nascimentos e
mortes e no subsistema econômico as demandas geradas a partir da interação deste
subsistema com os demais (Figura 27).

30
Figura 26 Integração entre o Modelo Multi-Escala e GIS fonte:(Engelen 1995) .

31
Figura 27 – A macro escala (fonte: Engelen 1995)

As condições climáticas (climate) do modelo são definidas a partir de variáveis


ambientais tais como temperatura, precipitação e nível do mar, e das relações de
influência existentes entre elas.

Figura 28 – O Subsistema Natural

A Figura 28 mostra que variações na temperatura e no nível do mar afetam as


demais variáveis. Estas relações de influência são também expressas de forma explícita,
através de gráficos e tabelas e podem ser manipulados pelo usuário de forma
independente e interativa. Esta funcionalidade caracteriza este modelo como um

32
modelo exploratório, pois permite que o usuário avalie um fenômeno a partir de
diferentes cenários (what if questions).

Figura 29 – Os componentes do clima

As variáveis sociais, de forma análoga às naturais, podem ser manipuladas de


forma interativa e independente. Entretanto, as variáveis econômicas são geradas a
partir do comportamento dos subsistemas natural e social. Para o cálculo destas
variáveis são utilizados coeficientes para medir o crescimento populacional e da oferta
de empregos, por exemplo, e determinar o espaço necessário (demanda do solo) para
acomodar as atividades econômicas (turismo, indústrias) afetadas por estes
coeficientes.

Figura 30 – Subsistemas Social e Econômico


33
Na micro escala, cada estado de célula representa uma categoria de uso do solo
(Figura 31). Os estados são divididos em duas categorias: funções e feições. Funções
são usos do solo ativos, tais como residencial, floresta, comercial. Em princípio, uma
célula função pode mudar para qualquer um dos estados possíveis. Feições são usos do
solo fixos, tais como rios, parques e aeroportos. Embora as feições não estejam sujeitas
às mudanças geradas pelas regras de transição do autômato celular, eventualmente elas
podem ser convertidas através de um processo especial ou uma intervenção exógena.
Feições aparecem como argumentos das regras e podem afetar a transição de células
vizinhas. Assim, por exemplo, a existência de um parque pode influenciar a transição
de células vizinhas em células residenciais (White and Engelen 1997).

Figura 31 – A micro escala

A demanda do solo para as várias atividades é fornecida pela macro escala, de acordo
com um mecanismo baseado em três classes de prioridades. As regras de prioridade um
são intervenções do usuário como, por exemplo, a inclusão de um aeroporto. As regras
de prioridade dois são regidas pelo subsistema natural e geram certas transições
diretamente, sem interferência do autômato celular. Por exemplo, se o nível do mar
sobe, células com baixa elevação são convertidas em praias ou mangues (White and
Engelen 1997). As regras de prioridade três se aplicam às células ativas (funções).
Para cada célula ativa é calculado um vetor de potencialidades, em que cada
potencialidade representa o grau de atração de uma célula para uma determinado estado
(z). O potencial (Pz) de uma célula depende de três fatores:
• a adequabilidade da célula para a atividade z (Sz)

• efeito agregado das células na vizinhança (Nz)

• uma pertubação estocástica (∈z )


34
Estes fatores se relacionam da seguinte forma:

P z = S z N z + ∈z

O efeito agregado da vizinhança (Nz) leva em consideração principalmente a localização


das células. A vizinhança de uma célula é uma região circular com um número variável
de células, organizadas em zonas de distâncias. Assim, a fórmula para calcular o efeito
agregado de vizinhança consiste em:

Nz= Σ Ld,i Wz,y,d


onde:
• Wz,y,d parâmetro de peso aplicado a células no estado y na distância d
• i índice das células na zona de distância d
• Ld,i 1 se a célula i na distância d está no estado y; 0, caso contrário.

A regra de transição estabelece que cada célula ativa é convertida para o estado para o
qual seu potencial é maior, mas até que a demanda por células deste estado seja
atendida. Depois deste ponto, nenhuma outra célula é convertida para este estado. Os
potenciais para tal estado são ignorados nas conversões subsequentes.
Os resultados das simulações são apresentados de forma dinâmica na tela do
computador, isto é, o usuário acompanha todas as transições. Na Figura 32, são
apresentados os resultados de uma simulação para 40 anos em que se trabalhou com
dois cenários. No primeiro cenário, Figura 32 a, assumiu-se que não haveria mudanças
climáticas, ou seja, a temperatura e o nível do mar se manteriam ao longo do tempo. No
segundo cenário, Figura 32 b, considerou-se que a temperatura aumentaria em 2C e o
nível do mar em +20cm. Em ambos os casos partiu-se da configuração inicial
apresentada na Figura 31 e considerou-se que a população apresentaria um crescimento
de 2% ao ano e um número total de 11000 vagas de empregos, distribuídas em
diferentes atividades.

35
Figura 32 – Simulações a) sem mudanças climáticas b) com mudanças
climáticas

Na Figura 32 b, simulada com o cenário de mudanças climáticas, pode-se observar uma


redução da área das praias e mangue, como conseqüência do aumento do nível do mar.

8.6 CONSIDERAÇÕES FINAIS

Este capitulo teve por objetivo apresentar os principais conceitos e aspectos


computacionais envolvidos em sistemas de modelagem espacial dinâmica. Na
dimensão conceitual, verificou-se que cada um dos elementos chaves de um modelo
dinâmico, tais como espaço, tempo e modelo matemático permitem diferentes
representações computacionais. A escolha de uma forma de representação para um
destes elementos afeta os demais, uma vez que as escalas de todos os elementos devem
ser integradas.
No contexto computacional, foi explorado a solução baseada em autômatos celulares.
No estudo desta abordagem de implementação, verificou-se que processos físicos e
urbanos possuem mecanismos distintos para aplicação de regras de transição. Enquanto
os processos físicos podem ser descritos por modelos determinísticos, os processos
urbanos são caracterizados como processos estocásticos e são altamente influenciados
por variáveis exógenas. Nos processos físicos, pode-se considerar a topologia do
terreno, o que, apesar das críticas ao modo como as redes de drenagem LDD são
geradas (discretização do fluxo em 45o, introdução de artefatos, (Burrough and
McDonnel 1998)), produz padrões espaciais coerentes com os que acabam se
desenvolvendo naturalmente no mundo real. Quanto à modelagem de processos
urbanos, sistemas como os desenvolvidos pelo RIKS (www.riks.nl) apresentam grande
flexibilidade para a inclusão de variáveis que aumentam a precisão das predições,

36
entretanto, são sistemas de estrutura complexa, de difícil entendimento e
implementação.
Não existe uma solução única para modelar fenômenos espaciais dinâmicos. A solução
ideal para cada caso deve ser buscada tentando responder o porque, onde e quando de
cada fenômeno, através da integração das escalas temporal e espacial articulada com o
modelo matemático definido para descrever o fenômeno e prever sua evolução.
Cadeias de Markov, modelos logísticos de Difusão e Regressão são eficientes em
modelar processos estacionários mas são desprovidos de funcionalidades específicas
para a representação espacial. Entretanto, estes modelos utilizam equações
matemáticas simples e requerem poucos dados, além de serem compatíveis com o
formato de dados oriundos de fontes de sensoriamento remoto e, como conseqüência,
facilmente implementados em GIS.
Modelos de Sistemas são classificados como modelos exploratórios, porque fornecem
condições para que várias simulações possam ser investigadas a partir de diferentes
cenários. Entretanto, estes modelos requerem um profundo nível de conhecimento do
fenômeno em estudo e acabam por se tornar sistemas altamente especializados, não
podendo ser aplicados a outras classes de fenômenos.
Diferentes modelos servem a diferentes propósitos, logo eles não são excludentes, mas
sim complementares. Nesta perspectiva, Lambin (1994) sugere que ao se construir um
modelo deve-se fazê-lo de forma gradual, começando por Cadeias de Markov, que são
os mais simples, e ir incorporando novos elementos (variáveis exógenas) e funcões
(determinísticas) ao projeto.
A dimensão espacial deve ser também introduzida de forma gradual, começando com as
relações espaciais mais elementares como as de vizinhança, refinando continuamente,
de forma a contemplar a noção de espaço relativo e suporte a representações em
mútiplas escalas.
Modelos espaciais dinâmicos construídos com esta visão de projeto devem ser capazes
de representar de forma realista os fenômenos dinâmicos encontrados na natureza,
superando as limitações dos modelos atuais, baseados em concepções limitadas quanto
às representações do espaço, do tempo e dos processos.

37
Referências Bibliográficas

Batty, M. (1999). Modeling urban dynamics through GIS-based cellular automata.


Computers, Environment and Urban Systems 23: 205-233.
Batty, M. (2000). GeoComputation Using Cellular Automata. GeoComputation. S.
Openshaw and R. J. Abrahart, Taylor&Francis: 95-126.
Burrough, P. (1998). Dynamic Modelling And Geocomputation. Geocomputation: A
Primer. P. Longley, M. Batty and R. McDonnel. London, John Wiley & Sons.
Burrough, P. and R. McDonnel (1998). Principles of Geographical Information
Systems. Oxford, OUP.
Câmara, A. S. (1996). Spatial Simulation Modelling. Spatial Analytical Perspectives on
GIS. M. Fisher. London, Taylor & Francis: 213-218.
Couclelis, H. (1997). “From Cellular Automata to Urban Models: New Principles for
Model Development and Implementation.” Environment and Planning B: Planning and
Design 24: 165-174.
Couclelis, H. (1999). Space, Time, Geography. Geographical Information Systems. P.
Longley, M. Goodchild, D. Maguire and D. Rhind. New York, John Wiley: 29-38.
Edelweiss, N. and J. P. M. Oliveira (1994). Modelagem de Aspectos Temporais de
Sistemas de Informação. Recife, UFPE-DI.
Engelen, G. (1995). “Using Cellular Automata for Integrated Modelling of Socio-
environmental Systems.” Environmental Monitoring and Assessment 34: 203-214.
Lambin, E. F. (1994). Modeling Deforestation Processes - A Review, Trees series B:
Research Report . European Commission, Luxembourg.
Reis, E. J. and S. Margulis (1991). Options for Slowing Amazon Jungle Clearing.
Global warming: economic policy responses. R. Dornbusch and J. M. Poterba.
Cambridge, The MIT Press: 335-375.
Roy, G. G. and F. Snickars (1996). Citylife: A study of cellular automata in urban
dynamics. Spatial Analytical Perspectives on GIS. M. Fisher. London, Taylor &
Francis: 213-218.
Santos, M. (1996). A Natureza do Espaço: Técnica e Tempo, Razão e Emoção. São
Paulo, HUCITEC.
Soares Filho, B. S. (1998). Modelagem dinâmica de paisagem de uma região de
fronteira de colonização amazônica. Escola Politécnica. São Paulo, Universidade de São
Paulo.
Voigtmann, A. B., L.; Hinrichs K.H. (1996). Temporal Extensions for an Object-
Oriented Geo-Data_Model. Spatial Data Handling - 1996 (SDH'96).

38
White, R. and G. Engelen (1997). “Cellular Automata as the Basis of Integrated
Dynamic Regional Modelling.” Environment and Planning B: Planning and Design 24:
165-174.
Worboys, M. F. (1995). GIS - A Computing Perspective. Bristol, PA, Taylor & Francis
Inc.

39