Вы находитесь на странице: 1из 34

MTODOS E MODELOS EM ECONOMETRIA ESPACIAL.

UMA REVISO

Alexandre Xavier de CARVALHO YWATA1 Pedro Henrique de Melo ALBUQUERQUE2


RESUMO: Este texto apresenta uma discusso sobre diversos modelos economtricos para estimao de modelos paramtricos na presena de dependncia espacial, com dados crosssection. O foco inicial so modelos de dependncia espacial com lags espaciais da varivel resposta ou lags espaciais do resduo, com estimao dos parmetros feita via mxima verossimilhana. Uma anlise crtica destes modelos apresentada em seguida, alm de se discutirem testes para detectar presena de dependncia espacial. Finalmente, discutem-se mtodos de estimao mais robustos, os quais permitem a contabilizao de endogeneidade em algumas das variveis explicativas. PALAVRAS-CHAVE: Econometria espacial; dependncia espacial; dados cross-section.

1 Introduo
Nas ltimas dcadas, um conjunto cada vez maior de ferramentas analticas para tratamento de dados espaciais tem surgido na literatura especializada. Estas ferramentas tm auxiliado pesquisadores em diferentes campos da cincia a lidar com a crescente disponibilidade de bases de dados georreferenciados. De fato, diferentemente de sries temporais macroeconmicas, por exemplo, uma base de dados totalmente nova e detalhada, com dados cross-section espaciais, pode surgir de um ano para o outro. Alm disso, o crescente desenvolvimento de dispositivos de coleta e armazenamento de dados geogrficos tem contribudo para a construo de inmeras bases de dados com componentes espaciais. Apesar de todo o avano ocorrido nas dcadas recentes, ainda h um grande terreno a ser explorado em termos de ferramentas para dados geograficamente localizados. Os avanos esperados para os prximos anos tm a ver tanto com a formalizao de resultados matemticos, quanto com avanos mais conceituais sobre a aplicao dos modelos que vm sendo utilizados at o presente momento. Uma discusso sobre tpicos de natureza mais conceitual pode ser encontrada, por exemplo, em Holmes (2010), McMillen (2010) e Pinkse e Slade (2010).

Instituto de Pesquisa Econmica Aplicada IPEA, Diretoria de Estudos Regionais, Urbanos e Fiscais DIRUR, SBS, Quadra 1, Bloco 1, Edifcio BNDES, CEP: 70076-900, Braslia, DF, Brasil. E-mail: alexandre.ywata@ipea.gov.br Universidade de Braslia UnB, Departamento de Administrao, CEP: 70910-900, Braslia, DF, Brasil. E-mail: pedroa@unb.br

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

273

Holmes (2010) apresenta uma discusso interessante sobre os trs tipos bsicos de abordagem para estudos empricos em anlise de dados espaciais. As trs abordagens discutidas so: i) abordagem estruturalista; ii) abordagem experimentalista; e iii) abordagem descritiva. Um entendimento destas trs abordagens importante, para que os pesquisadores possam identificar em quais das trs um determinado trabalho emprico se situa, de forma que as vantagens e as limitaes do trabalho fiquem mais claras. Na abordagem estruturalista, o exerccio emprico parte de um modelo econmico totalmente especificado, com base em uma teoria geralmente microfundamentada. O objetivo do exerccio estimar parmetros estruturais do modelo (deep model parameters), relativos a preferncias e/ou tecnologias. A partir do modelo estimado, possvel simular impactos de polticas (inclusive polticas que ainda no foram implementadas). Na literatura de organizao industrial mais recente, 3 os modelos microfundamentados estimados permitem, por exemplo, avaliar a priori o impacto da fuso de duas empresas. Apesar de a abordagem estruturalista estar mais desenvolvida para pesquisas em organizao industrial, pesquisadores em economia poltica (Epple e Sieg, 1999) e economia do trabalho (Keane e Wolpin, 1997; Eckstein e Wolpin, 1999) j comearam a utiliz-la. A abordagem experimentalista surgiu inicialmente na literatura de economia do trabalho. Nesta abordagem, o interesse principal a identificao do efeito causal de uma determinada poltica (efeito tratamento). Ao invs de se preocupar com a especificao de um modelo terico, a ideia bsica encontrar experimentos naturais ou instrumentos vlidos para a identificao de causalidade de polticas que j foram implementadas. Para maiores detalhes, o leitor pode recorrer a manuais como Angrist e Pischke (2009) ou Cameron e Trivedi (2005). Nesse contexto, mtodos de estimao do tipo mnimos quadrados de dois estgios, ou de forma mais geral, mtodos de momentos generalizados, tm um papel muito importante. Outro procedimento comumente empregado a regresso de descontinuidade (Hahn et al., 2001). Ao contrrio das duas abordagens anteriores, a abordagem descritiva no tem por objetivo quantificar o efeito causal de determinadas polticas. Em geral, os artigos que utilizam a abordagem descritiva se iniciam com uma discusso da teoria econmica, que pode estar ou no embasada em modelos matematicamente fundamentados. A partir de regresses e outros indicadores estatsticos, os autores buscam encontrar evidncias nas relaes entre as variveis, que possam corroborar uma determinada teoria (possivelmente, em detrimento de teorias alternativas). As regresses em geral correspondem a formas reduzidas de equaes estruturais mais completas. Uma das limitaes desta abordagem que, alm de no permitir inferncias causais, ela tambm est sujeita crtica de Lucas. Dessa forma, alteraes no regime econmico podem incorrer em alteraes nos parmetros do modelo, tornando a utilizao dos modelos reduzidos menos crveis do ponto de vista de simulaes a priori de impactos de polticas.4 A maioria dos estudos em economia regional e urbana segue a abordagem descritiva. Nos ltimos anos, tm surgido estudos que utilizam a abordagem experimentalista para avaliao de polticas. Por sua vez, a utilizao da abordagem estruturalista pode trazer vrios benefcios para economia regional, dada a dificuldade de se encontrar bons
3 4

Ver Berry et al. (1995 e 2004), Nevo (2001), Petrin (2002) e Ackerberg et al. (2007). Ver Hendry (1995).

274

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

instrumentos ou bons experimentos naturais. Uma das dificuldades na utilizao da abordagem experimentalista em economia regional a disponibilidade de dados (comparando-se ao nmero de observaes de estudos em economia do trabalho, por exemplo). Uma sugesto para o uso da abordagem experimentalista em economia regional e urbana a utilizao de dados em nvel de firmas, por exemplo, ao invs de dados em nvel de municpios. A utilizao da abordagem estruturalista para economia regional e/ou urbana deve se iniciar com a construo de um modelo terico (o que pode no ser to fcil como no caso de modelos de organizao industrial). Por seu turno, a utilizao de abordagens estruturalistas em economia regional poderia ser interessante para simulaes de polticas pblicas. No entanto, pouco tem sido feito neste sentido at agora. Neste trabalho, apresenta-se uma discusso sobre alguns dos modelos economtricos comumente utilizados para modelagem de dados espaciais. De maneira geral, os modelos apresentados aqui estariam mais adequados para estudos empricos seguindo as abordagens experimentalista e descritiva. De fato, o estimador de mnimos quadrados de dois estgios, de Kelejian e Prucha, e o estimador de mtodo de momentos generalizado, de Conley (1999), permitem a estimao de parmetros na presena de variveis endgenas do lado direito da equao, contabilizando e/ou corrigindo para a presena de autocorrelao espacial nos resduos do modelo. Mesmo no tratando diretamente a abordagem estruturalista, as ideias apresentadas neste texto fornecero ao leitor uma noo dos procedimentos para estimao com dados com presena de dependncia espacial, o que poder ser til para a estimao de parmetros estruturais em modelos microfundamentados. Dado o grande avano pelo qual a literatura em mtodos estatsticos para dados espaciais tem passado nos ltimos anos, no h interesse aqui em ser exaustivo em termos de metodologias discutidas. Pelo contrrio, optou-se por apresentar apenas alguns dos mtodos mais comumente utilizados, de forma a transmitir ao leitor uma ideia bsica, mas elucidativa, sobre os fundamentos da estimao de modelos economtricos com dependncia espacial. Nesse sentido, no sero tratados, por exemplo, dados de painel (vejam-se, por exemplo, Elhorst, 2003; Druska e Horrace, 2004; e Egger et al., 2005), mas apenas dados cross-section. Alm disso, a abordagem ser predominantemente frequentista. Apesar da simpatia em relao aos mtodos bayesianos, principalmente no contexto de dados espaciais, para no se estenderem demasiado os autores preferiram aterse aos procedimentos frequentistas. O leitor poder encontrar boas exposies em Banerjee et al. (2004) e Schabenberger e Gotway (2009), entre outros. Finalmente, o texto apresenta uma discusso sobre um tpico comumente empregado na literatura: o tratamento de heterogeneidade espacial. Mais especificamente apresenta-se o mtodo de expanso de Casetti (1972) e o mtodo de regresso geograficamente ponderada (geographically weighted regression), estes permitem que haja uma variao suave nos parmetros estimados ao longo do espao (vide, por exemplo, Fotheringham et al., 2000 e 2002). A regresso geograficamente ponderada uma metodologia que pode ser uma alternativa til para a modelagem de processos econmicos regionais no Brasil, dada a grande heterogeneidade entre as unidades da federao brasileiras. Alm de discutir a metodologia de regresso geograficamente ponderada comumente encontrada na literatura, discute-se tambm uma extenso dessa metodologia para estimao utilizando-se mtodo de momentos generalizados. Essa

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

275

extenso, conforme abordado em Camargo et al. (2010), denominada mtodo de momentos generalizados geograficamente ponderados. Alm desta introduo, este texto contm mais seis sees. Na seo 2, apresenta-se uma discusso sobre os modelos economtricos espaciais para dados cross-section provavelmente mais utilizados na literatura. Na seo 3, discutem-se algumas das crticas mais comuns aos modelos espaciais apresentados na seo 2. Na seo 4, so apresentados alguns dos testes mais utilizados para verificao da presena ou no de dependncia espacial. As sees 5 e 6 discutem procedimentos de estimao para contabilizar para a presena de variveis endgenas no lado direito da equao: a seo 5 apresenta o estimador espacial de mnimos quadrados de dois estgios, e a seo 6 apresenta o estimador de mtodo de momentos generalizados, com correo para a presena de autocorrelao espacial. A heterogeneidade espacial dos dados discutida na seo 7 e comentrios finais encontram-se na seo 8.

2 Modelos paramtricos para dependncia espacial


Nesta seo, ser feita uma discusso de alguns dos modelos paramtricos comumente utilizados em econometria espacial. A discusso se limitar a regresses com dados cross-section. 5 Para modelos envolvendo dados de painel espacial, o leitor pode recorrer a Elhorst (2003), Druska e Horrace (2004), Egger et al. (2005). 2.1 Modelos SAR

Um dos modelos mais comumente utilizados para modelagem de correlao espacial o modelo autorregressivo espacial (spatial autorregressive model), ou simplesmente modelo SAR. A ideia dos modelos SAR utilizar a mesma ideia dos modelos AR (autorregressivos) em sries temporais, por meio da incorporao de um termo de lag entre os regressores da equao. Na sua forma mais simples, o modelo SAR tem expresso: = + , (1)

onde um vetor coluna, contendo n observaes na amostra para a varivel resposta , o coeficiente escalar corresponde ao parmetro autorregressivo, esse parmetro possui como interpretao o efeito mdio da varivel dependente relativo vizinhana espacial na regio em questo, j o termo corresponde a um vetor coluna contendo os resduos da equao. Por enquanto, assume-se que os resduos so independentes e identicamente distribudos, com distribuio normal, com mdia zero e varincia homognea . Um dos componentes presentes em uma grande quantidade de modelos espaciais a matriz . Esta matriz conhecida como matriz de vizinhana, e pode ser definida de diversas formas, o que traz crticas aos modelos espaciais utilizando (muitos autores consideram as definies para deveras arbitrrias; a este respeito, ver Pinkse e Slade, 2010).

Ver Anselin (1988), Lesage (1997 e 1999), Pace e Barry (1997 e 1998), Anselin e Florax (2000), Anselin et al. (2004), Lesage e Pace (2009).

276

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

Uma das formas mais comumente empregadas de definio da matriz se d por meio da identificao de vizinhos de primeira ordem. Considere-se que cada observao no vetor esteja associada a um polgono e um sistema georreferenciado. Por exemplo, o vetor pode corresponder a observaes de uma determinada varivel observada para cada municpio brasileiro, ou corresponder a observaes de uma varivel para cada setor censitrio na cidade de So Paulo. Neste caso, o elemento , da matriz assume valor , = 1, caso os polgonos i e j sejam vizinhos, e , = 0, caso i e j no sejam vizinhos. A diagonal principal de possui todos os elementos iguais a zero, por definio. Para identificar polgonos (municpios, setores censitrios etc.) vizinhos, pode-se considerar uma vizinhana do tipo queen, quando alm das fronteiras com extenso diferente de zero, puderem ser considerados os vrtices como contguos, na visualizao de um mapa. Esse padro equivale ao movimento da rainha no xadrez. Similarmente, uma matriz do tipo rook equivale ao movimento das torres em um jogo de xadrez. Em outras palavras, a matriz do tipo rook ocorre quando apenas as fronteiras com extenso diferente de zero so consideradas, no se levando em conta os vrtices na visualizao do mapa. Note-se que a vizinhana do tipo queen menos restritiva do que a vizinhana do tipo rook. Alm da vizinhana de primeira ordem, podem-se utilizar vizinhanas de ordem maior. Na definio de vizinhana de segunda ordem, por exemplo, os polgonos i e j so vizinhos caso exista outro polgono k, para o qual i e k sejam vizinhos de primeira ordem, e j e k tambm sejam vizinhos de primeira ordem.6 A matriz , com elementos 0 ou 1, conhecida como matriz de vizinhana no normalizada, em contraposio matriz normalizada. A matriz normalizada construda a partir da matriz original (no normalizada), dividindo-se todos os elementos de cada linha de pela soma da linha. Portanto, a matriz possui todas as linhas com soma igual a 1. Por sua vez, a matriz original simtrica, o que no vale para a matriz . O vetor = conhecido como lag espacial. No caso de se utilizar a matriz de contiguidade normalizada, o vetor = corresponde a um vetor de mdias simples das observaes para a varivel dos vizinhos. A partir de agora, a matriz de contiguidade ser referida simplesmente como , independentemente de ser uma matriz normalizada ou no normalizada. Apesar da aparente arbitrariedade na escolha da matriz (Pinkse e Slade, 2010) alguns autores propem abordagens que auxiliam na escolha da matriz de contiguidade. Baumont (2004) propem que a matriz de vizinhana seja construda por meio do mtodo dos k vizinhos mais prximos, a qual definida da seguinte forma: = 0, = 1, = 0, = , > ,

onde um elemento da matriz normalizada, uma distncia de corte definida para cada unidade , ou seja, a menor distncia entre a regio e todas as outras unidades de modo que cada unidade tem exatamente vizinhos. Para escolher o nmero de vizinhos mais prximos, Baumont (2004) sugere o seguinte procedimento: 1. Estime o modelo de interesse.
6

Ver Lesage e Pace (2009).

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

277

2. Em seguida teste a presena de autocorrelao espacial por meio do I de Moran para diversas matrizes contendo k vizinhos mais prximos onde k deve variar, por exemplo, de 1 a 20. 3. Finalmente, escolhe-se a matriz de vizinhana que produza o maior valor do ndice I de Moran. Similarmente, outras abordagens podem ser utilizadas para a escolha da matriz , como por exemplo, escolher a matriz de contiguidade que produza a maior logverossimilhana ou menor critrio de informao como o AIC de Akaike ou o BIC de Schwarz. O modelo paramtrico em (1) contm, como parmetros desconhecidos, o coeficiente e a varincia . A estimao do parmetro permite, por exemplo, inferior o grau de correlao espacial entre as observaes . Alm disso, testando-se a significncia do parmetro , tem-se um procedimento para inferir a presena ou no de dependncia espacial entre as observaes. A seguir, se discutir o processo de inferncia dos parmetros do modelo em (1). Uma das primeiras sugestes para a estimao do coeficiente a utilizao do estimador de mnimos quadrados ordinrios. No entanto, quando o vetor de covariveis (variveis do lado direito da equao) correlacionado com o resduo da regresso, sabese que o estimador de mnimos quadrados ordinrios inconsistente. Esta correlao entre os resduos e o regressor observada no modelo em (1). 7 Portanto, estimao via mnimos quadrados ordinrios resultaria em uma estimativa inconsistente para o coeficiente . Para entendermos melhor a existncia da correlao entre os resduos da regresso e o regressor Wy, note que podemos reescrever o modelo em (1) como y = (In W)-1 , onde In uma matriz identidade com dimenso n. Sob certas condies de regularidade (restries sobre e sobre os autovalores da matriz W), podemos expandir o termo (In W)-1 em uma srie infinita da forma: (In W)-1 = In + W + 2W2 + 3W3 + Portanto, Wy = W + W2 + 2W3 + 3W4 + , o que implica que cada regressor Wyi funo tambm do resduo i. Ressaltamos que, apesar de a diagonal principal de W ser nula, as diagonais principais das matrizes W2, W3, W4, ..., podem possuir valores no nulos, o que explica a presena de correlao entre o regressor Wyi e o resduo i. Como alternativa, o analista pode utilizar estimao via mxima verossimilhana, que no sofre do problema de inconsistncia do estimador de mnimos quadrados ordinrios, devido endogeneidade do regressor . Em linhas gerais, a estimao via mxima verossimilhana dos parmetros e parte da distribuio normal multivariada para o vetor de resduos . A partir de (1), pode-se escrever onde uma matriz identidade com dimenso n. Dado que possui distribuio normal multivariada, com mdia nula e covarincia , ento o vetor observado possui distribuio normal multivariada com mdia nula e covarincia = 1[ 1] . A partir desta matriz de covarincia, pode-se escrever a funo de log-verossimilhana l , = logL , . Maximizando-se logL , , obtm-se os estimadores de mxima verossimilhana dos parmetros do modelo.
7

(2)

Ver Anselin (1988) e Lesage e Pace (2009).

278

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

Uma das dificuldades na estimao de modelos SAR (mesmo no caso mais simples, no qual no h covariveis exgenas) a necessidade de se realizarem operaes com matrizes de grandes dimenses. No processo iterativo para obteno do mximo da funo logL , , preciso calcular o logaritmo do determinante da matriz , que possui dimenso n. Se o analista estiver fazendo uma aplicao com observaes de setores censitrios da cidade de So Paulo, por exemplo, o valor de n est em torno de 18 mil; portanto, a matriz possui dimenso 18 mil por 18 mil. Felizmente, pela prpria definio da matriz de contiguidade , pode-se trat-la como matriz esparsa; ou seja, a grande maioria dos elementos de so nulos. Para matrizes esparsas, existe uma literatura bem desenvolvida sobre algoritmos que tornam o processo computacional mais eficiente. 8 Portanto, apesar de a codificao do estimador de mxima verossimilhana no ser trivial ( preciso programar algumas rotinas para matrizes esparsas), o esforo computacional pode ser bastante reduzido. Uma vez dentro do arcabouo de estimao via mxima verossimilhana, pode-se recorrer a vrios dos resultados para este tipo de estimador. Pode-se, ento, testar a significncia do parmetro , utilizando-se o teste de Wald, o teste da razo de verossimilhana ou o teste dos multiplicadores de Lagrange. Testando-se a significncia do parmetro , se est implicitamente testando a presena de dependncia espacial das observaes para a varivel . O modelo SAR em (1) pode ser estendido, para incorporar variveis exgenas no lado direito da equao, obtendo-se: onde a matriz uma matriz contendo as observaes das variveis exgenas. A dimenso de , sendo o nmero de regressores. Cada linha da matriz corresponde a uma observao na base de dados (um polgono, em um sistema georreferenciado). No caso de a regresso incluir um intercepto, a primeira coluna da matriz possui apenas valores 1. O vetor um vetor coluna de coeficientes para as variveis exgenas, e possui dimenso 1. O modelo em (3) conhecido como modelo SAR misto. Da mesma forma que no SAR simples (Equao (1)), a estimao dos parmetros no modelo SAR misto via mnimos quadrados ordinrios tambm produz estimativas inconsistentes, uma vez que o vetor de lags espaciais correlacionado com o vetor de resduos . Novamente, pode-se utilizar mxima verossimilhana, a partir da hiptese de que o vetor de resduos possui distribuio normal multivariada com mdia nula e covarincia . Pode-se ento escrever = + , (4) ) normal (5) = + + , (3)

e o vetor de variveis observadas multivariada, com mdia condicional [ | ]=

possui distribuio (condicional a ,

e matriz de varincia condicional

Ver Davis (2006).

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

279

A partir da distribuio de , obtm-se a funo de log-verossimilhana condicional logL , , . Maximizando-se a funo de log-verossimilhana em relao aos parmetros do modelo, encontram-se as estimativas para os coeficientes e para a varincia dos resduos. Para uma discusso sobre o processo iterativo para estimao dos parmetros do modelo SAR misto, podem-se consultar Anselin (1988) e Lesage e Pace (2009). 2.2 Modelos SEM

] .

(6)

Da mesma forma que os modelos SAR partem da especificao de modelos AR para sries temporais, outra classe de modelos espaciais parte da especificao de modelos MA (mdias mveis) para observaes no tempo. Estes modelos espaciais so denominados modelos de erros espaciais (spatial error models), ou simplesmente SEM. Os modelos SEM possuem a seguinte especificao: = + . (7)

No caso, os resduos da equao observada possuem uma estrutura autorregressiva, da forma

+ .

(8)

O vetor de resduos possui distribuio normal multivariada, com mdia nula e matriz de covarincia . O coeficiente escalar indica a intensidade da autocorrelao espacial entre os resduos da equao observada. Mais especificamente, esse parmetro mensura o efeito mdio dos erros dos vizinhos em relao ao resduo da regio em questo. Note-se que, ao contrrio dos modelos SAR, os modelos SEM no apresentam a varivel resposta como uma funo direta dos seus lags espaciais. A autocorrelao espacial nos modelos SEM aparece nos termos de erro. Outra diferena dos modelos SEM em relao aos modelos SAR que os coeficientes no vetor podem ser estimados consistentemente via mnimos quadrados ordinrios. De fato, a regresso em (7) pode ser vista como uma regresso linear com resduos correlacionados. O estimador de mnimos quadrados ordinrios produz estimativas consistentes, mas a matriz de covarincia das estimativas no ser mais [ ] . Devido aos erros correlacionados, a matriz de covarincia de dada por9 [ ]= onde = [ ] . Note-se que a matriz depende do coeficiente e da varincia . A estimativa destes dois parmetros pode ser obtida consistentemente a partir da estimao de um modelo SAR via mxima verossimilhana, conforme discutido no item anterior, para os resduos = . Uma vez estimados os escalares e , pode-se obter uma estimativa para a matriz de covarincia de
9

=[

],

(9)

Ao longo deste texto, a expresso da forma denotar o transposto do elemento em , onde um vetor coluna, um vetor linha, ou mesmo um escalar.

uma matriz,

280

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

onde

= [ ] . Sabe-se que, no caso de modelos lineares com regressores exgenos (o que o caso nos modelos SEM), com resduos correlacionados, o estimador de mnimos quadrados ordinrios consistente, mas no eficiente, havendo outros estimadores lineares que produzem varincias menores. 10 Especificamente para o modelo SEM, o estimador linear com varincia mnima o estimador de mnimos quadrados generalizados (generalized least squares GLS), dado por =

]=[

],

(10)

Na prtica, no se conhece a matriz , uma vez que esta depende dos parmetros desconhecidos e . Utiliza-se ento o estimador de mnimos quadrados generalizados exequveis (feasible generalized least squares FGLS), com expresso onde = [ ] , com e estimativas via mxima verossimilhana do modelo SAR simples, a partir dos resduos = . Portanto, uma alternativa para a estimao dos parmetros do modelo SEM dada pelos passos: i) Obter a estimativa de mnimos quadrados ordinrios =[ ] [ ]. ii) Calcular os resduos = . iii) Estimar os parmetros e , via mxima verossimilhana, para o modelo SAR em , = + . iv) Calcular a estimativa = [ ] . v) Obter a estimativa vi) Obter a estimativa para a covarincia =

(11)

(12)

Inferncia para os coeficientes em pode ser efetuada a partir da matriz . Note-se que a estimativa final para o vetor no precisa parar no passo (v) acima. De fato, uma vez obtida uma estimativa , pode-se obter um novo vetor = . Para este novo vetor , estimam-se novamente os parmetros e , repetindo-se em seguida os passos (iv) e (v). Este processo pode ser efetuado repetidamente at que os valores no vetor atinjam a convergncia. Finalizam-se ento as estimaes com o passo (vi). Alm das estimativas via mnimos quadrados ordinrios (com correo da matriz de covarincia das estimativas dos coeficientes) e das estimativas via mnimos quadrados generalizados exequveis (FGLS), a literatura apresenta uma discusso sobre estimao
10

]=

Quando os autores se referem a varincias menores, na verdade referem-se ao fato de que a diferena uma matriz positiva definida, onde um estimador linear mais eficiente do que o estimador de mnimos quadrados ordinrios.

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

281

dos parmetros do modelo SEM via mxima verossimilhana. Combinando as expresses (7) e (8), obtm-se = + , (13)

onde possui distribuio normal multivariada com mdia nula e covarincia . Portanto, o vetor de varivel resposta possui distribuio normal multivariada com mdia condicional [ | ]= , [ ] . (14)

e matriz de varincia condicional


|

A partir da distribuio de , obtm-se a funo de log-verossimilhana condicional logL , , . Maximizando-se a funo de log-verossimilhana em relao aos parmetros do modelo, encontram-se as estimativas para os coeficientes e para a varincia dos resduos. Para uma discusso sobre o processo iterativo para estimao dos parmetros do modelo SEM, consultem-se Anselin (1988) e Lesage e Pace (2009). Similarmente s estimaes no caso de modelos SAR, a estimao de modelos SEM tambm envolvem operaes com matrizes esparsas. Novamente, utilizando-se rotinas mais eficientes para matrizes esparsas, o esforo computacional pode ser bem menor. Lesage e Pace (2009) apresentam uma extenso dos modelos SAR e SEM denominados respectivamente de modelos de Durbin espacial e modelo de Durbin do erro espacial, nos quais, alm da matriz de delineamento , h tambm uma matriz de variveis explicativas defasadas espacialmente. Assim, os modelos de Durbin espacial e de Durbin do erro espacial so representados respectivamente por = + + + e = + + , onde = + . 2.3 Modelos SARMA Finalmente, os modelos SEM e SAR podem ser combinados em uma especificao mais geral, seguindo a ideia nos modelos ARMA (autorregressive and moving average) para sries temporais. Os modelos SARMA (spatial autorregressive and moving average) tm uma especificao da forma: = + + , (16)

(15)

na qual os resduos da equao observada possuem uma estrutura autorregressiva, da forma: = + . (17)

As matrizes e so matrizes de contiguidade no necessariamente iguais. De fato, quando = , o modelo no identificado, e as estimativas para os coeficientes e podem resultar bastante instveis, 11 a menos que a matriz de delineamento contenha pelo menos uma varivel exgena alm do intercepto. Uma das crticas em relao utilizao dos modelos SARMA justamente o fato de eles exigirem, em alguns casos, a
11

Ver Anselin (1988), e Lesage e Pace (2009).

282

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

especificao de duas matrizes de contiguidade diferentes. Em geral, a escolha de uma matriz de contiguidade arbitrria; a escolha de duas matrizes diferentes implica em um grau de arbitrariedade ainda mais criticvel. Estimao dos parmetros do modelo SARMA pode ser feita via mxima verossimilhana. A partir das expresses (16) e (17), pode-se escrever = = + +

Assumindo-se que possui distribuio normal multivariada, com mdia zero e covarincia , conclui-se que o vetor de observaes para a varivel resposta possui distribuio normal multivariada com mdia condicional [ | ]= , [ ] . (18)

e matriz de varincia condicional


|

Utilizando-se a frmula para a distribuio normal multivariada, pode-se chegar funo de log-verossimilhana logL , , , , como funo dos parmetros desconhecidos do modelo. Similarmente aos modelos SAR e SEM, as estimativas de mxima verossimilhana no possuem frmula fechada, necessitando de um processo iterativo para maximizao da funo logL , , , . Uma discusso sobre os passos no processo iterativo para estimao dos parmetros no modelo SARMA pode ser encontrada em Anselin (1988) e Lesage e Pace (2009).

(19)

3 Crticas aos modelos de dependncia espacial


Apesar do seu uso bastante disseminado, os modelos paramtricos para tratamento de dependncia espacial (exemplos: SAR, SEM e SARMA) vm recebendo vrias crticas na literatura. Estas crticas no necessariamente retiram destes modelos quaisquer utilidades em pesquisas empricas. No entanto, alguns dos pontos levantados pelos crticos so importantes para: i) antecipar aos usurios alguns cuidados e limitaes acerca dos quais eles devem estar cientes; ii) fornecer um certo balizamento para pesquisas futuras para os modelos espaciais, de maneira a corrigir/amenizar algumas das limitaes. Nesta seo, ser feita uma discusso sobre algumas das crticas aos modelos apresentados na seo 3 (e seus equivalentes para dados de painel). Estas crticas se aplicam mais fortemente ao problema de especificao paramtrica (ou no) para capturar corretamente a dependncia espacial. No caso de testes de hiptese para a presena ou no de dependncia espacial, os testes atualmente disponveis (conforme seo 4) se comportam de forma bastante satisfatria em situaes regulares. Nos casos mais irregulares, utilizam-se frequentemente os testes LM Robustos. Maiores detalhes podem ser encontrados, por exemplo, em Pinkse e Slade (2010). De maneira geral, o embasamento terico para a modelagem em econometria espacial ainda se encontra em um estgio inicial. Dessa forma, uma das dificuldades encontrar um modelo que se adqe a todos os tipos de situao. Nesse sentido, alguns autores defendem que os pesquisadores se concentrem no desenvolvimento de teorias

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

283

especficas para classes particulares de aplicaes, ao invs de seguirem na busca de extenses para tcnicas j existentes. Entre as limitaes para os modelos de SAR e outros modelos da forma ARMA espaciais (incluindo extenses para dados de painel), podem-se citar os itens a seguir: i) Hiptese improvvel e desnecessria de normalidade dos resduos. ii) O fato de depender dos seus prprios lags espaciais pode implicar que tambm dependa dos lags espaciais do vetor de covariveis , incorrendo no problema de reflexo (reflexion problem), apontado por Manski (1993). A consequncia prtica que a incluso de lags espaciais de pode ocasionar uma matriz de design com altssimo grau de multicolinearidade. iii) Os modelos SAR e demais modelos ARMA assumem linearidade nos parmetros . Este fato nem sempre verdade na prtica, e pode haver a necessidade de especificaes no lineares da relao entre o vetor de regresses e a varivel por meio dos parmetros. iv) Os modelos SAR e correlatos no levam em considerao a presena de dependncia entre o vetor de regressores e os resduos , causada pela presena de regressores endgenos em e/ou pela presena de heteroscedasticidade condicionada aos regressores. Entretanto, outras propostas como o estimador de Kelejian e Prucha e o estimador HAC, ambos apresentados posteriormente, visam a corrigir esses problemas. v) H fortes crticas representao excessivamente simplista de toda a dependncia espacial em um nico coeficiente . vi) A matriz de contiguidade implica um alto grau de arbitrariedade na sua especificao, principalmente levando-se em considerao a irregularidade dos mapas de municpios e de setores censitrios, por exemplo. De maneira geral, os modelos SAR e correlatos foram inicialmente propostos como possveis extenses dos modelos para dependncia em sries temporais. No entanto, h uma srie de crticas analogia dos procedimentos para dependncia espacial com os procedimentos para dependncia temporal. Algumas destas crticas esto listadas a seguir: a) Os dados no so igualmente espaados. b) A presena de observaes ausentes (missing values) pode incorrer na presena de endogeneidade, ocasionando vieses nos estimadores de mxima verossimilhana. c) Observaes espaciais, em muitos casos, so agregaes de observaes (por polgono, por exemplo) do comportamento de vrios agentes. Portanto, modelos baseados no comportamento de agentes individuais podem no ser mais vlidos. d) Nos modelos para sries temporais, os procedimentos so teoricamente validados a partir de proposies sobre o comportamento assinttico dos estimadores, quando o nmero de observaes (intervalo total da srie histrica) assume valores cada vez maiores ( . Para modelos para dados espaciais, no claro se a expanso assinttica ocorre com o aumento da densidade de observaes dentro do mapa (infill asymptotics), ocorre com o aumento das fronteiras (increasing domain asymptotics), ou ocorre com as suas expanses simultaneamente. e) O item anterior particularmente importante, porque no h garantia de que as relaes de dependncia espacial se alteram quando mais observaes so adicionadas aos dados. Por exemplo, no caso de infill asymptotics, a adio de novas observaes pode ocasionar um aumento da dependncia espacial, uma vez que as observaes estaro cada mais prximas em mdia.

284

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

f) Diferentemente dos modelos para sries temporais, a estimao dos modelos com dados espaciais pode sofrer do grave problema de endogeneidade das decises locacionais das unidades observadas na amostra. Uma consequncia da endogeneidade das localizaes que as distncias entre os agentes, bem como as estruturas de vizinhana, tambm so endgenas. Este problema tem se mostrado de difcil soluo at o momento, e vem sendo desprezado na maioria das aplicaes. Diversos artigos recentes tm focalizado alguns dos problemas discutidos anteriormente. Para adicionar maior flexibilidade modelagem da vizinhana, por exemplo, algumas extenses do modelo SAR tradicional consistem em substituir a matriz de contiguidade por uma expanso de funes base, da forma y=

W y + X + u .

(20)

Na prtica, necessrio truncar o nmero de elementos no somatrio da expresso (20), at um nmero . Como tpico em estimaes com expanses de funes base, faz-se aumentar para o infinito, quando o tamanho da amostra aumenta. Neste caso, a expresso torna-se =
=0

(21)

e o problema de rigidez em relao forma funcional da dependncia espacial pode ser amenizado (para maiores detalhes, ver Pinkse et al., 2002; Pinkse e Slade, 2004; e Pofahl, 2007). Boa parte dos problemas de endogeneidade pode ser tratada com a utilizao de variveis instrumentais apropriadas, conforme discutido nas sees 5 e 6. Para o problema de observaes ausentes (missing data), no qual o processo gerador das observaes ausentes exgeno, podem-se utilizar procedimentos de mnimos quadrados de dois estgios (Lee, 2007). Para situaes nas quais a gerao das observaes ausentes endgena, no h soluo conhecida na literatura. De maneira geral, ainda existe um grande caminho a ser trilhado em termos de procedimentos e tratamentos tericos, para lidar com os problemas nos modelos para dados espaciais.

4 Testes para dependncia espacial


Na seo anterior, foram discutidos alguns modelos mais comumente utilizados para contabilizar para a presena de dependncia espacial nos resduos (ou na prpria varivel resposta) do modelo de regresso. Nesta seo, ser apresentada uma discusso sobre testes para dependncia espacial. De maneira geral, os modelos paramtricos apresentados na seo 2 tm sofrido diversas crticas, conforme ser visto na seo 4. Por seu turno, os testes para a presena de dependncia espacial no sofrem o mesmo ataque, e so relativamente bem aceitos na literatura.

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

285

4.1

Estatstica de Moran

Uma das estatsticas para testes de dependncia espacial mais disseminada a estatstica I de Moran. Esta estatstica pode ser aplicada varivel diretamente, ou aos resduos da regresso de versus um conjunto de variveis explicativas. Considere-se ento um modelo de regresso linear, da forma onde um vetor coluna ( 1 de variveis resposta, uma matriz com cada linha contendo as observaes para as variveis explicativas, alm de uma coluna unitria associada ao intercepto do modelo, um vetor de coeficientes e um vetor coluna contendo os resduos da regresso. A partir da estimativa de mnimos quadrados ordinrios para o vetor de coeficientes, obtm-se a seguinte expresso para os resduos = [ =

(22)

A estatstica I de Moran para a autocorrelao espacial pode ser aplicada nos resduos do modelo de regresso de maneira direta. Formalmente, a estatstica I dada por

] [

].

(23)

(24)

onde o vetor de resduos da regresso por mnimos quadrados ordinrios, a matriz de contiguidade espacial, o nmero de observaes da amostra e s um fator de padronizao igual soma de todos os elementos da matriz . A partir da estatstica I, pode-se construir um teste para a hiptese nula de presena de independncia espacial. Por sua vez, a especificao da hiptese alternativa no to simples. A distribuio assinttica para a estatstica I foi derivada por Cliff e Ord (1972). Dessa forma, considere-se = , (25)

so, respectivamente, a mdia e a varincia assinttica da estatstica I onde e de Moran. Sob a hiptese nula, a distribuio da estatstica pode ser estimada via simulaes de Monte Carlo. Quando a estatstica construda a partir dos resduos , a rejeio da hiptese nula implica em evidncias de que h autocorrelao espacial no modelo de regresso. Esse teste afetado pela ausncia de normalidade e pela presena de heterocedasticidade, o que pode invalidar as concluses inferenciais resultantes das estimaes. Entretanto, a utilizao do mtodo de Monte Carlo (via bootstrap) e a utilizao da transformao de Box-Cox na varivel dependente podem auxiliar na correo desses problemas. A partir da, o analista pode recorrer a um dos modelos paramtricos discutidos na seo 2, na seo 4 ou na seo 5. 4.2 Teste de Kelejian-Robinson

Kelejian e Robinson (1992) propuseram um teste com o mesmo objetivo do teste I de Moran. No entanto, diferentemente do teste I de Moran, o teste de Kelejian-Robinson

286

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

no pressupe normalidade da varivel sendo testada (a varivel observada ou os resduos da regresso). Portanto, o teste de Kelejian-Robinson mais robusto no normalidade dos resduos ou da varivel observada, sendo mais apropriado quando a hiptese similaridade ao padro gaussiano seja questionvel. O teste de Kelejian-Robinson tem como pressuposto inicial

(26) , = = , onde um vetor 1 de covariveis, tipicamente tomadas como funes das variveis explicativas originais para e , com e sendo localidades contguas em um espao geral de observaes ordenadas. Por exemplo, pode ser construdo a partir de produtos cruzados dos elementos de e . O vetor no necessariamente possui a mesma dimenso de (ou ). O elemento um vetor 1 de parmetros, indicando o quanto os componentes de podem explicar a covarincia entre os resduos. Intuitivamente, a ausncia de autocorrelao espacial poder no produzir relaes significativas entre , e , resultando em estimativas no significantes para os coeficientes no vetor . A hiptese nula ento construda como : = 0 em (24). Dada uma amostra de tamanho , seja um vetor de dimenses 1, contendo as covarincias 's no nulas12 (por construo) para todo < . O teste implementado regredindo-se os produtos cruzados = dos resduos versus os vetores , para todo < , com e polgonos vizinhos. Seja ento a matriz , com dimenso , construda a partir do empilhamento dos vetores linha , e seja um vetor coluna, com dimenso 1, construdo a partir do empilhamento dos valores de = . Uma estimativa para pode ser obtida via mnimos quadrados ordinrios, resultando em =

A partir da estimativa , pode-se construir a estatstica teste de Kelejian-Robinson, dada pela expresso =

(27) a varincia para o resduo da regresso pode ser dada, por exemplo, por . . Pode-se

onde um estimador consistente de , e de = versus . Uma estimativa para =

Sob a hiptese nula, temos que

converge em probabilidade para

mostrar ento que uma forma alternativa para a estatstica teste dada por

12

Nesse caso, as covarincias no nulas so aquelas para as quais os polgonos e so vizinhos, de acordo com a definio de vizinhana utilizada para a anlise.

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

287

Sob a hiptese nula de ausncia de dependncia espacial, a estatstica KR possui distribuio assinttica qui-quadrada, com graus de liberdade. Este teste, no entanto, baseado em uma estrutura espacial arbitrria, a qual admite apenas contigidade de primeira ordem na definio da iterao entre as unidades espaciais. 4.3 Testes assintticos a partir de especificaes paramtricas

(28)

Nas sees 3.1 e 3.2, foram discutidos dois procedimentos de testes estatsticos para presena de dependncia espacial, os quais no dependem de uma especificao paramtrica para a forma de autocorrelao no espao. Nesta seo, sero revisitados os modelos discutidos na seo 2, para se construrem outros procedimentos de testes, a partir de especificaes paramtricas. De forma geral, os procedimentos aqui discutidos so obtidos a partir de trs metodologias tradicionais, empregadas para testes de hipteses em geral. Estas metodologias so: i) teste de Wald; ii) teste da razo de verossimilhana (likelihood ratio LR); iii) teste dos multiplicadores de Lagrange (Lagrange multipliers LM). 4.3.1 Princpios gerais Os testes de Wald, LR e LM so baseados nas propriedades dos estimadores de mxima verossimilhana. 13 Mais especificamente, estas propriedades seguem do pressuposto de normalidade assinttica dos estimadores. Formalmente, seja um vetor de parmetros e suas respectivas estimativas por mxima verossimilhana, satisfazendo a convergncia em distribuio 0, [ ] ,

onde o valor real do parmetro no modelo (assumindo um modelo corretamente especificado), o elemento a matriz de informao de Fisher para uma observao, e o nmero de observaes na amostra. Considere-se ento que o conjunto de hipteses, sobre os parmetros do modelo a serem testadas, pode ser escrito da forma: onde , : , uma funo linear ou no linear do vetor de parmetros . Considerem-se, por exemplo, os modelos SAR ou SEM, vistos na seo 2. Como casos especiais de testes de hipteses para os modelos paramtricos, tem-se os testes individuais dos parmetros de autocorrelao espacial: : = 0 no modelo SAR, ou : = 0 no modelo SEM.
13

: :

=0 , 0

O teste de Wald pode ser utilizado tambm em outros contextos, que no o de estimao via mxima verossimilhana.

288

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

Os testes de Wald, LR e LM so baseados nas distncias das estimativas para o modelo irrestrito e as estimativas satisfazendo s restries impostas pela hiptese nula. Por exemplo, se o vetor de parmetros particionado em dois vetores distintos, da forma = [ , ], e a hiptese nula pode ser escrita da forma : = 0, a estimativa de no modelo restrito consistir das estimativas para concatenada com todos os elementos de iguais a zero. A estimativa irrestrita a estimativa do vetor completo . Os testes sero ento baseados na medida da diferena entre as estimativas do modelo e o vetor restrito . Intuitivamente, se a distncia entre os dois resultados completo muito grande, a hiptese nula rejeitada. Para a realizao dos testes necessrio estimar: i) Wald: apenas o modelo completo (irrestrito); ii) RV: o modelo completo (irrestrito) e o modelo restrito (sob a hiptese nula); e iii) LM: apenas o modelo restrito (sob a hiptese nula). A seguir se far uma discusso um pouco mais detalhada dos trs tipos de testes. Dadas certas condies de regularidade, e assumindo-se que a hiptese nula verdadeira, as estatsticas testes comumente empregadas para os trs procedimentos possuem distribuio assinttica qui-quadrada , com nmero de graus de liberdade iguais a (dimenso da funo vetorial ). 4.3.2 Teste de Wald O teste de Wald pode ser expresso na forma geral com um vetor 1 das estimativas obtidas por mxima verossimilhana dos parmetros irrestritos, uma matriz de derivadas da funo e uma estimativa consistente da matriz de varincias e covarincias do estimador do vetor de parmetros . Considere-se, por exemplo, o modelo espacial SARMA, com resduos homocedsticos, com um parmetro de autocorrelao igual a , e suponha-se que h interesse em testar se este parmetro igual a zero. Para isso, pode-se escrever a hiptese nula como: = [1, 0 ][ , = : [1, 0 ][ , , ,

(29)

A derivada

onde

o primeiro elemento da diagonal principal da estimativa .

[1, 0 ][1, 0 ]

, ,

] = [1, 0 ], e chega-se ento a =

] =

=0.

4.3.3 Teste da razo de verossimilhana

Considere-se o modelo paramtrico indexado pelo parmetro . A partir de uma amostra de tamanho , constri-se a funo de log-verossimilhana, como funo de . o valor da funo de log-verossimilhana, computada no ponto = , e seja Seja
289

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

o valor da funo de log-verossimilhana, computada no ponto = . Conforme discutido anteriormente, a estimativa irrestrita do parmetro tal que = arg max , e a estimativa do parmetro , impondo-se a restrio correspondente hiptese nula, de forma que = 0. Ou seja, = arg
,

max
..

A estatstica do teste da razo de verossimilhana dada por =2 . (30)

. Sob a hiptese nula, e assumindo certas condies de regularidade, tem-se Considerando-se novamente o modelo SARMA, pretende-se testar a hiptese nula : = 0. A funo de log-verossimilhana do modelo irrestrito tem expresso = , , , = 2 [ log 2 log 2 ] + + | [ |+ | ] , |

enquanto a funo de log-verossimilhana do modelo restrito dada por , , = = 2 log 2 [ log 2 = ] | [ |+ ] .

| |

A estatstica teste dada por assinttica .

, ,

, ,

, e tem distribuio

4.3.4 Teste dos multiplicadores de Lagrange O teste dos multiplicadores de Lagrange, tambm conhecido como teste do escore, baseado na abordagem de otimizao, mais precisamente, nas condies de primeira ordem da funo lagrangiana da funo de log-verossimilhana = + , restries em

onde

o vetor dos multiplicadores de Lagrange correspondendo s = 0. A estatstica deste dada por =

onde o vetor escore do modelo restrito calculado sob a hiptese nula. a matriz de informao de Fisher calculada sob a hiptese nula. A estatstica LM ter distribuio .

290

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

4.3.5 Teste dos multiplicadores de Lagrange no modelo SEM No caso do modelo de erros espaciais (SEM), os resduos so modelados na forma = + , e, para se testar a hiptese de ausncia de autocorrelao espacial, o interesse reside em se testar a hiptese nula de que = 0. Das trs abordagens de testes (Wald, razo de verossimilhana e multiplicadores de Lagrange), a mais conveniente a abordagem dos multiplicadores de Lagrange, uma vez que ela requer apenas a estimao do modelo restrito. Neste caso, a partir da estimao dos coeficientes da regresso via mnimos quadrados ordinrios, e das estimativas para os erros da regresso, dados por = , pode-se mostrar que a estatstica teste tem expresso onde = trao[ + ]. Caso a matriz seja simtrica (i.e., = ), obtm-se = 1. Computacionalmente, os testes de Wald e da razo de verossimilhana so mais complexos, uma vez que necessrio o clculo das estimativas de mxima verossimilhana sem a restrio sobre o parmetro . A estatstica teste em (29) converge assintoticamente para uma distribuio qui-quadrada com um grau de liberdade. Note-se que o teste dos multiplicadores de Lagrange constitui-se em um procedimento simples para se testar a hiptese de ausncia de dependncia espacial nos erros da regresso. 4.3.6 Testes LM e LR robustos O teste dos multiplicadores de Lagrange (LM) apresentado anteriormente segue uma distribuio qui-quadrada, com um grau de liberdade, sob a hiptese nula de que o parmetro de autocorrelao espacial igual a zero. Entretanto, no caso de m especificao, a distribuio do teste ser uma distribuio qui-quadrada no centrada, implicando assim na rejeio da hiptese nula mais frequentemente, do que especificado no nvel do teste. Nesse contexto, surgem os testes LM e LR robustos sugeridos por Anselin et al. (1996) e Anselin e Bera (1998), apresentados a seguir. Considere o modelo SARMA apresentado em (16) e (17). O teste para : = , na presena do parmetro , dado por: LM = d T D d T T D . (32) = [

(31)

= , . = + estatsticas escore dos parmetros e Similarmente, o teste robusto para : = LM =

Sobre : = e = , a estatstica quadrada com um grau de liberdade, onde =

D T

d T T

converge para uma distribuio qui + com = , e , so as , = e , respectivamente, do modelo SARMA. na presena do parmetro dado por: T d . (33)

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

291

No entanto, Anselin e Bera (1998) realam que h um preo a ser pago na robustificao do teste. Por exemplo, no caso em que = , e na presena do parmetro de dependncia do erro espacial, por meio de = , sobre esse formato, os e parmetros de no centralidade dos testes e so respectivamente . Desde que o poder assinttico de ser menor do que quando no h o parmetro de defasagem . Similarmente a mesma discusso se enquadra para o teste . A idia por trs dos testes robustos ajustar a estatstica teste LM levando em considerao a no centralidade da distribuio do teste, no caso de m especificao do modelo. Assim, uma forma direta para especificar qual modelo utilizar pode ser dado pelos seguintes passos: 1. Estimativa OLS - teste LM: a. Ausncia de significncia: i. Assuma o modelo OLS. b. LM-erro significativo e LM-lag no significativo: i. Assuma o modelo de erro espacial. c. LM-lag significativo e erro-LM no significativo: i. Assuma o modelo de defasagem espacial. d. LM do erro e LM-lag significativos: i. Utilizar testes robustos e selecionar aquele com maior significncia como alternativa.

5 Estimao via mnimos quadrados de dois estgios


Os modelos apresentados na seo 2 tratam de situaes nas quais no h variveis explicativas endgenas no lado direito da equao, de forma que a estimao via mxima verossimilhana fornece estimativas consistentes para os parmetros do modelo. No entanto, em muitas situaes, principalmente quando se tem o objetivo de identificar relaes de causalidade entre determinadas polticas, o problema de endogeneidade aparece nos modelos espaciais, surgindo a necessidade de se utilizarem abordagens que estendam, por exemplo, os estimadores de variveis instrumentais para situaes com dependncia espacial. Kelejian e Prucha, em diversos artigos, 14 exploraram este problema, e propuseram o estimador espacial de mnimos quadrados de dois estgios (S2SLS). Entre as caractersticas da abordagem de mnimos quadrados espaciais de dois estgios de Kelejian e Prucha, podem-se citar: i) visa estimao de modelos de regresso linear, com um termo de lag espacial da varivel resposta do lado direito da equao; ii) permite a estimao de modelos com regressores endgenos; iii) os coeficientes (inclusive o coeficiente do termo de lag espacial da varivel resposta) so todos estimados por intermdio do procedimento de mnimos quadrados de dois estgios; iv) o coeficiente de lag espacial da varivel resposta tem como instrumento, para resolver o problema de endogeneidade, os lags espaciais dos regressores exgenos; v) o procedimento permite a incorporao de correes para a presena de heteroscedasticidade e autocorrelao espacial residual nos termos de erro da regresso estimada.
14

Ver Kelejian e Prucha (1997, 1998); Kelejian e Robinson ( 2002, 2007 e 2009); e Kelejian et al. (2004).

292

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

Para fazer a exposio de metodologia de mnimos quadrados espacial de dois estgios, considere-se a equao geral a seguir: = + + + , (34)

onde y um vetor coluna contendo as observaes empilhadas para a varivel resposta, o coeficiente do lag espacial da varivel resposta, W uma matriz de vizinhana, Y uma matriz com regressores endgenos, o vetor um vetor de coeficientes dos regressores endgenos, X uma matriz com os regressores exgenos, o vetor o vetor com coeficientes dos regressores exgenos, o vetor u um vetor coluna, de dimenso 1 com os resduos do modelo. Escrevendo-se a equao acima de forma mais concisa, com = [ , , ], = [ , , ], tem-se Seja uma matriz com observaes das variveis instrumentais para os regressores endgenos em . Os instrumentos para a varivel endgena so dados pelos lags espaciais dos regressores exgenos . A matriz com todas as variveis instrumentais pode ser ento representada como: =[ , , ].

O estimador de mnimos quadrados espacial de dois estgios (spatial two stage least squares S2SLS) tem expresso =[

Na ausncia de heteroscedasticidade e autocorrrelao espacial dos resduos, um estimador para a varincia assinttica dos estimadores dada por: =( = [ / . ] , (36)

(35)

com

Na presena de heteroscedasticidade dos resduos, uma estimativa robusta para a matriz de varincia assinttica tem expresso: onde = S e uma matriz diagonal contendo o quadrado dos resduos da equaco estimada via S2SLS. Na presena de heteroscedasticidade e autocorrelao espacial, pode-se utilizar um estimador robusto (HAC). Para isso, preciso estimar = . Uma forma para esta estimativa dada por
,

(37)

onde

so elementos da matriz

,e

o vetor de resduos da equao estimada via

S2SLS. O termo uma funo kernel (que uma funo de densidade, com integral igual a 1). Algumas alternativas para as funes kernel esto apresentadas na Tabela 1.

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

293

Tabela 1- Alguns tipos de kernel a serem utilizados no estimador HAC para a matriz de covarincia assinttica do estimador S2SLS Tipo de kernel Kernel triangular ou de Barlett Expresso = 1
[ [ [ ] ] ]

Kernel de Epanechnikov Kernel biquadrado (bi-squared kernel)


Elaborao dos autores.

= 1 = 1

Na expresso na segunda coluna da tabela 1, o valor corresponde distncia entre os polgonos (ou demais entidades localizadas em um espao de coordenadas) e . A distncia uma distncia mxima de corte. Pode-se escolher com um valor fixo para todas as observaes, ou varivel, de forma a considerar um nmero fixo de vizinhos mais prximos de cada observao (podem-se escolher distncias variveis, de forma a incluir os 40 vizinhos mais prximos, por exemplo, de cada observao). A partir da equao anterior para = , pode-se escrever a varincia assinttica, robusta heteroscedasticidade e autocorrelao espacial nos resduos, para os estimadores S2SLS, com a expresso onde

A correo dada pela expresso (36), para contabilizar para desvios em relao hiptese de homocedasticidade e ausncia de correlao entre os resduos da regresso, baseia-se no trabalho de Conley (1999), que prope um estimador robusto para correo da matrix de varincia assinttica no contexto de mtodo de momentos generalizados. Na prxima seo, faz-se uma discusso especificamente sobre a abordagem de Conley, a qual se mostra bastante flexvel, permitindo estimar modelos com especificaes no lineares. Nesse contexto, ser discutido, por exemplo, como a abordagem GMM de Conley pode ser utilizada para estimar modelos probit, logit etc., quando h correlao espacial entre as observaes.

(38)

6 Mtodo de momentos generalizado com correo para dependncia espacial


Nesta seo, apresenta-se uma discusso sobre o procedimento de Conley (1999), por meio do qual se permite a estimao de modelos gerais via mtodo de momentos generalizados, na presena de autocorrelao espacial nas observaes. Entre as vantagens deste procedimento, podem-se citar: i) conta com a toda a flexibilidade da estimao via
294 Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

GMM; ii) possibilita a estimao de modelos com especificaes no lineares; iii) apresenta uma extenso, para o caso espacial, da estimao no paramtrica da matriz de varincia, inicialmente proposta, para dados com dependncia temporal, por Newey e West (1987); e iv) possibilita a estimao de sistemas de equaes. Para simplificar a exposio, sero considerados apenas modelos uniequacionais. Considere-se ento a forma geral do modelo de regresso (linear ou no linear) = , + . (39)

O termo um termo de erro que possui mdia zero. O vetor um vetor de variveis explicativas, e corresponde a um vetor de parmetros desconhecidos do modelo. Assume-se que pode haver endogeneidade em algumas das variveis do lado direito da equao. Considere-se ento um vetor de instrumentos . No caso de no haver endogeneidade, o vetor de instrumentos exatamente o vetor de covariveis; ou seja, = . A partir do vetor de variveis instrumentais, podem-se ento escrever as condies de momento (momentos populacionais) [ ] = [[ 1 , ] ]=0. (40)

Para prosseguir a estratgia de estimao, substituem-se os momentos populacionais por seus equivalentes amostrais, obtendo-se [ , ] =0. (41)

Assumindo-se algumas condies de regularidade, quando o nmero de coeficientes exatamente igual ao nmero de instrumentos, diz-se que o modelo exatamente identificado e possvel encontrar um vetor de coeficientes para o qual a igualdade acima satisfeita. 15 No entanto, quando a dimenso de maior do que o nmero de coeficientes, a probabilidade de se obter uma amostra para a qual a igualdade seja exatamente satisfeita zero (conjunto de medida nula). Uma alternativa ento encontrar o vetor que minimiza a forma quadrtica = 1 [ , ] 1 [ , ] .

A matriz uma matriz positiva definida qualquer. O estimador GMM definido como = arg min

15

Ver Hamilton (1994) e Matyas (2008).

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

295

Pode-se mostrar que o estimador GMM consistente (assumindo que as devidas condies de regularidade so satisfeitas). Eficincia obtida utilizando-se a matriz tima = , onde = [[ , ] ].

Na prtica, quando no h dependncia entre as observaes, pode-se estimar intermdio da expresso = 1 [[ , ] ] [[ , ] ] .

por

(42)

No entanto, quando h possveis dependncias entre as observaes para os vetores correspondentes s condies de momento, o estimador supracitado para no mais vlido. No caso de as observaes para , e acontecerem em perodos discretos de tempo igualmente espaados, Newey e West (1987) propem uma correo no paramtrica e robusta para o estimador . Este estimador foi revisitado em Andrews (1991) e Andrews e Monahan (1992). Conley (1999) props um estimador robusto tanto a heteroscedasticidade quanto autocorrelao espacial, no caso de dados cross-section, espacialmente distribudos, seguindo os mesmos princpios que Newey e West (1987). De maneira geral, o estimador proposto por Conley tem expresso = onde 1 , = 1 , [[
,

, = 0, caso contrrio. O valor , corresponde distncia horizontal entre unidades e , o valor , corresponde distncia vertical entre e , a distncia de corte horizontal, e a distncia de corte vertical. Em geral, a minimizao de no resulta em uma soluo explcita, devendo ser feita via algoritmos numricos. Uma exceo ocorre no caso de modelos lineares; neste caso, o estimador GMM pode ser escrito em forma fechada, sem haver necessidade de minimizao numrica. A flexibilidade da estimao via GMM, na formulao = , + , permite o tratamento de modelos no lineares, com formulaes paramtricas comumente encontradas na literatura. A Tabela 2 apresenta alguns exemplos de modelos que podem ser incorporados na formulao GMM. Pode-se ento proceder com a abordagem de estimao, corrigindo, por exemplo, para problemas de dependncia espacial.

, para

] [

<

] e

(43) <

, e

296

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

Tabela 2 - Exemplos de modelos paramtricos enquadrados na formulao GMM, que podem ser estimados corrigindo-se para dependncia espacial Modelos paramtricos Modelos lineares Modelos logit Modelos probit Modelos complementary log-log Modelos exponenciais
Elaborao dos autores.

Formulao , =

= 1 exp exp

= =

1+

Uma vez estimado o vetor de coeficientes , pode-se proceder com o processo de inferncia a partir da matriz de covarincia dos estimadores, estimvel a partir da expresso
= 1 [ , ] 1 [ , ] .

Quando o modelo exatamente identificado, com nmero de instrumentos igual ao nmero de parmetros, a minimizao da forma quadrtica resulta em = 0. Quando o modelo sobreidentificado, pode ser testada a validade das condies de momento, utilizando-se a estatstica de Hansen (1982). = 1 [ , ] 1 [ , ] . (44)

Sob a hiptese nula de validade dos instrumentos, pode-se mostrar que a estatstica em (42) tem distribuio assinttica qui-quadrada, com graus de liberdade, sendo o nmero de coeficientes e o nmero de condies de momento.

7 Heterogeneidade espacial
Muitos fenmenos estudados nas cincias que envolvem dados regionais tratam com a instabilidade da estrutura sobre o espao na forma de diferentes funes respostas ou atravs da variao sistemtica dos parmetros no espao. Esses efeitos so conhecidos como heterogeneidade e englobam fatores como a heterocedasticidade, coeficientes aleatrios e mudana estrutural. Em termos globais h dois tipos de distintos de heterogeneidade espacial: a) Instabilidade estrutural: Expressa pela mudana funcional ou pela variao dos parmetros.
Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011 297

b) Heterocedasticidade: Acontece pela falta de variveis ou outro tipo de falta de ajuste que leva o erro a apresentar varincia inconstante. O tratamento da heterogeneidade espacial inicialmente realizado por meio do aprofundamento dos mtodos de expanso de coeficientes, como Casetti (1972). No entanto, a maior parte das aplicaes recentes envolve o mtodo de regresso geograficamente ponderado como uma forma de modelar a variabilidade dos parmetros atravs do espao (Fotheringham et al., 2000; Fotheringham et al., 2002). Dessa forma, a heterogeneidade usualmente tratada por meio de dois mtodos: Mtodo de expanso dos coeficientes de Casetti (1972) e a Regresso geograficamente ponderada- Fotheringham et al. (2002). Do ponto de vista economtrico, o mtodo de expanso espacial pode ser considerado como um caso especial da alterao sistematicamente dos coeficientes em um modelo de regresso. A heterogeneidade no fenmeno sob estudo refletida nos valores dos parmetros os quais diferem para cada observao. Essa diferenciao assumida ser expressa como uma funo de um nmero de variveis auxiliares. Na terminologia do mtodo de expanso de Casetti, a especificao homognea simples original chamada de modelo inicial, ao passo que a formulao heterognea chamada de modelo final (ou modelo terminal). Nas aplicaes iniciais do mtodo de expanso, as variveis auxiliares consistiam de tendncias de superfcies (atravs de polinmios) usando as coordenadas das localizaes das observaes, caracterizando assim a expanso espacial, outra proposta utilizar componentes principais para agregar o mximo de informao em apenas uma ou duas variveis. Sem perda de generalidade, as propriedades do mtodo de expanso de Casetti podem ser mais formalmente ilustradas atravs de uma regresso simples com apenas uma varivel explicativa e o intercepto. O modelo inicial dado por: = + + , (45)

onde e so os coeficientes da regresso e o vetor de observaes da varivel explicativa. A heterogeneidade refletida na falta de estabilidade dos parmetros sob as unidades amostrais, isso incorporado no modelo assumido, que cada parmetro individualmente (ou um subconjunto de parmetros) uma funo exata de um nmero finito de variveis de expanso, por exemplo, e ento: = + + . (46) +

Substituindo o parmetro expandido = + +

ou mais explicitamente:

no modelo original, Casetti (1972) obtm-se: , + (47)

Caso o modelo final seja especificado corretamente, ento as estimativas dos parmetros no modelo inicial sero viesadas, graas omisso das variveis no problema. De maneira mais geral, as estimativas dos coeficientes do modelo inicial podem ser expressas como:

(48)

298

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

onde = parmetros [ , mostrar que:

],

e o vetor = [1, ] e = [ = +

, ,

(49)

composto pelas estimativas do vetor de ]. Em termos do valor esperado, pode-se , (50)

onde o vetor de parmetros [ , ]. Os elementos da matriz so os produtos dos elementos de com as variveis de expanso. Ento, e no podero ser ortogonais e as estimativas do modelo inicial sero viesadas. Apesar de em alguns casos as variveis expansoras possam apresentar multicolinearidade, o mtodo de expanso espacial fornece uma maneira simples e atrativa da tratar a heterogeneidade nos coeficientes do modelo de regresso. Entretanto, a sua implementao necessita de cautela, especialmente quando no existem boas razes para a escolha das variveis expansoras. Na prtica, o pressuposto de uma relao exata entre os coeficientes e suas expanses espaciais difcil de se manter, ou seja, usual que ao realizar esse pressuposto algum erro seja cometido. Ento, uma forma de incorporar esse erro fazer: = + + + , (51)

onde assumido ser um vetor de erros aleatrios com distribuio normal com vetor de mdia zero e matriz de varincia e covarincias igual a . Substituindo (49) no modelo inicial obtm-se: onde o novo termo estocstico ser = + . Assim, o modelo pode ser escrito em uma forma mais compacta = + + + + + + + . O [ ]= qual um modelo heterocedstico, uma vez que + , caso o erro da expanso e o erro do modelo sejam no-correlacionados. Conseqentemente, inferncias sobre um modelo final expandido que no considere a heterocedasticidade podem ser falhas. Uma abordagem mais geral e que produz usualmente melhores resultados o mtodo das Regresses Espacialmente Ponderadas. Modelos de regresso geograficamente ponderada (ou espacialmente ponderada) so modelos de regresso onde o esquema de estimao permite que os parmetros do modelo variem no espao, de maneira suave. Aps a estimao, ao invs de um vetor de parmetros, contendo estimativas para amostra como um todo, existem n vetores de parmetros, onde n o nmero de unidades geogrficas. Portanto, estimado um vetor de parmetros para cada unidade geogrfica. Esse procedimento interessante se deseja identificar diferenas nos coeficientes da regresso, por exemplo, em mbito territorial. A regresso geograficamente ponderada pode ser til, inclusive, como ferramenta para investigar heterocedasticidade nos parmetros do modelo. A estimao dada como segue: para cada unidade geogrfica , os parmetros da regresso so estimados por mnimos quadrados ordinrios, mxima verossimilhana = + + + + + + + + , (52)

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

299

ponderada ou GMM geograficamente ponderado. O vetor de ponderao construdo de forma que unidades geogrficas mais prximas de recebem peso maior. Por outro lado, uma unidade geogrfica mais distante da unidade recebe peso menor. O processo completo envolve a execuo de estimaes, cada uma com um diferente vetor de pesos de dimenso . No contexto de estimao do GMM, para a escolha da unidade geogrfica , considere um conjunto de pesos, = 1, , os quais decaem na medida em que a distncia geogrfica entre as unidades e aumenta. Uma funo de ponderao comumente usada, a qual popular na estimao da densidade de kernel, baseada na funo de densidade para a distribuio normal. Mais especificamente, seja e a latitude e longitude da unidade , de acordo com a projeo de algum sistema de informao geogrfico. Para uma unidade geogrfica especfica , os pesos para todas as unidades podem ser calculados da seguinte maneira: = 2 1 1 [ 2 + ] , = 1, , . (53)

Note que, a seqncia de pesos , = 1, , , depende da unidade geogrfica focada, . Obviamente, o valor mximo da seqncia, para = 1, , igual a . O parmetro conhecido como bandwidth, ou parmetro de decaimento, e controla a velocidade de decaimento na funo kernel. Quando for muito pequeno, os pesos para unidades geogrficas mais distantes tendem a zero muito rapidamente; quando 0, todos os pesos 0 0, exceto , que tende para o infinito. Por outro lado, quando , todos os pesos assumem mesmo valor. Para cada unidade geogrfica , pode-se estimar o vetor correspondente minimizando a funo objetivo do GMM modificado: = 1 [ , ] 1 [ , ] . (54)

em que os pesos podem ser construdos de acordo com (51). Para evitar distores para os erros padres dos parmetros estimados, os so normalizados com a soma = .

pesos

Portanto, o GMM usual um caso particular do GMM geograficamente ponderado, quando = 1 para todos = 1, , e todos = 1, , . A escolha do importante para determinar a suavidade das estimativas de . Para valores grandes de , as estimativas tendem ser bastante similares. No limite, quando , todas as estimativas tendem para , estimado por GMM noponderado. Quando 0, o estimador considerada somente a observao . Em geral, a escolha de pode ser orientada por alguma regra de validao-cruzada (cross-validation).

300

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

Outra proposta para o tratamento da heterogeneidade espacial a abordagem de Lesage (2004) denominada SALE (Spatial Autocorrelation Local Estimation). Esse mtodo utiliza a proposta de Fotheringham et al. (1999) para justificar a abordagem GWR (Geographic Weighted Regression). Apesar de essa abordagem produzir estimativas dos parmetros locais tendenciosas e inconsistentes, a magnitude do vis desses estimadores menor do que alternativas que no abordam o problema da heterogeneidade espacial. Mesmo no sendo uma soluo ideal, essa abordagem pode ser vlida para diversas situaes prticas. Lesage (2004) estendeu a abordagem GWR (que originalmente tratava apenas dos coeficientes dos regressores do modelo) para estimar tambm o parmetro autoregressivo do modelo com dinmica espacial do tipo SAR. A idia central do algoritmo fornecer uma ferramenta que resolva, para cada ponto na amostra, a estimativa com base em uma equao com estrutura espacial dinmica. Modelo de regimes espaciais. Uma abordagem usual para o tratamento da instabilidade estrutural dos parmetros do modelo a adaptao da proposta de Quantd (1958) para a abordagem espacial. Nesse caso, assume-se que o sistema siga dois ou mais regimes no espao. Inicialmente, a proposta de Quantd (1958) foi sugerida para dois regimes no tempo para o caso de modelos de regresso linear. A extenso espacial dessa proposta pode ser utilizada para mais de dois regimes, com base nas dimenses no espao ao invs da dimenso temporal. Suponha, sem perda de generalidade, um modelo espacial SARMA o qual assume dois regimes no espao, tais que: = = + + + + , (55)

nos quais os resduos das equaes observadas possuem uma estrutura auto-regressiva, da forma = = + + . (56)

As matrizes so matrizes de contiguidade no necessariamente , , , , e 16 iguais, tais que , ,e , , so parties da regio como um todo . Essas parties so estimadas de maneira a maximizar a soma das logverossimilhanas dos modelos em (55) e (56). Ou seja, para cada uma das possveis parties da matriz , calcula-se a log-verossimilhana e o conjunto de parties que maximiza essa medida considerada na anlise. Em seguida, cada modelo estimado separadamente e o teste da razo de verossimilhana entre o modelo particionado e o modelo completo pode ser utilizado para se testar a hiptese de que a mudana de regime tenha ocorrido no espao.

16

Diz-se que uma regio possui uma partio quando h dois conjuntos de polgonos contguos, disjuntos entre si, tais que a unio dessas sub-regies compe a regio espacial como um todo.

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

301

8 Comentrios finais
Este texto apresenta uma discusso sobre alguns dos modelos economtricos comumente utilizados para modelagem de dados espaciais. Os modelos apresentados aqui estariam mais adequados para estudos empricos seguindo as abordagens experimentalista e descritiva, nas quais o objetivo identificar efeitos causais de uma determinada poltica, ou encontrar relaes entre variveis econmicas. De fato, o estimador de mnimos quadrados de dois estgios, de Kelejian e Prucha, e o estimador de mtodo de momentos generalizado, de Conley (1999), ambos discutidos neste estudo; permitem a estimao de parmetros na presena de variveis endgenas do lado direito da equao, contabilizando e/ou corrigindo para a presena de autocorrelao espacial nos resduos do modelo. Mesmo no tratando diretamente a abordagem estruturalista, as ideias apresentadas neste texto fornecero ao leitor uma noo dos procedimentos para estimao com dados com presena de dependncia especial, o que poder ser til para a estimao de parmetros estruturais em modelos microfundamentados. Dado o grande avano recente na literatura de anlise de dados espaciais, optouse por apresentar apenas alguns dos mtodos mais comumente utilizados, de forma a transmitir ao leitor uma ideia bsica, mas clara, dos fundamentos da estimao de modelos economtricos com dependncia espacial. No foram cobertos modelos para dados de painel, 17 mas apenas para dados cross-section. Outro tpico de extrema importncia na anlise de dados espaciais, que no foi tratado aqui, so os modelos estimados via abordagem bayesiana. O leitor poder encontrar boas exposies em Tanner (1996), Banerjee et al. (2004) e Schabenberger e Gotway (2009), entre outros.

CARVALHO YWATA, A. X.; ALBUQUERQUE, P. H. M. Methods and models in spatial econometrics. A review. Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011.
ABSTRACT: This paper presents a discussion on several econometric techniques for estimation of parametric models in the presence of spatial dependence, for cross-section data. We focus initially on spatial dependence models with spatial lags for the response variable or spatial lags for the equation residuals; estimation is done by maximum likelihood methods. We also present a critical analysis of the pitfalls that come up when using these spatial lag models. The paper also brings a discussion on tests for detection of the presence of spatial dependence. Finally, we discuss more robust estimation methods, which account for endogeneity in some of the explanatory variables. KEYWORDS: Spatial econometrics; spatial dependence; cross-section data.

Referncias
ACKERBERG, D.; BENKARD, C. L.; BERRY, S.; PAKES, A. Econometric tools for analyzing market outcomes. In: HECKMAN, J. J.; LEAMER, E. E. (Ed.). Handbook of econometrics. Amsterdam: Elsevier, 2007. v.6A.

17

Ver, por exemplo, Elhorst (2003), Druska e Horrace (2004), e Egger et al. (2005).

302

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

ANDREWS, D. W. K. Heteroskedasticity and autocorrelation consistent covariance matrix estimation. Econometrica, Oxford, v.59, n.3, p.817-858, 1991. ANDREWS, D. W. K.; MONAHAN, J. C. An improved heteroskedasticity and autocorrelation consistent covariance matrix estimator. Econometrica, Oxford, v.60, n.4, p.953-966, 1992. ANGRIST, J. D.; PISCHKE, J. S. Mostly harmless econometrics: an empiricists companion. New Jersey: Princeton University Press, 2009. 373p. ANSELIN, L.; BERA A. K.; FLORAX, R.; YOON, M. J. Simple diagnostic tests for spatial dependence. Reg. Sci. Urban Econ., Amsterdam, v.26, p.77-104, 1996. ANSELIN, L.; BERA, A. Spatial dependence in linear regression models with an introduction to spatial econometrics. In: ULLAH, A.; GILES, D. E. (Ed.). Handbook of applied economic statistics. New York: Marcel Dekker, 1998. p.237-289. ANSELIN, L.; FLORAX, R. Advances in spatial econometrics. Heidelberg: SpringerVerlag, 2000. 513p. ANSELIN, L.; FLORAX, R., REY, S. J. Advances in spatial econometrics methodology, tools and applications. Heidelberg: Springer, 2004. 513p. ANSELIN, L. Spatial econometrics: methods and models. Dordrecth: Kluwer Academic, 1988. BANERJEE, S.; CARLIN, B. P.; GELFAND, A. E. Hierarchical modeling and analysis for spatial data. Florida: Chapman & Hall/CRC, 2004. 472p. (Monographs on Statistics and Applied Probability, 101) BAUMONT, C. Spatial effects in housing price models. Do housing prices capitalize urban development policies in the agglomeration of Dijon (1999)? LEG - Document de travail - Economie 2004-04, LEG, Laboratoire d'Economie et de Gestion, CNRS UMR 5118, Universit de Bourgogne, 2004. BERRY, S.; LEVINSOHN, J.; PAKES, A. Automobile prices in market equilibrium. Econometrica, Oxford, v.63, n.4, p.841-890, 1995. BERRY, S.; LEVINSOHN, J.; PAKES, A. Differentiated products demand systems from a combination of micro and macro data: the new car market. J. Polit. Econ., Chicago, v.112, n.1, p.68-105, 2004. CAMARGO, R. S.; CARVALHO, A. X. Y.; BOUERI, R. Mtodo de momentos generalizados geograficamente ponderados. Braslia: IPEA, 2010. 76p. (Relatrio Tcnico). CAMERON, A. C.; TRIVEDI, P. K. Microeconometrics: methods and applications. New York: Cambridge University Press, 2005. CASETTI, E. Generating models by the expansion method: applications to geographic research. Geogr. Anal., Columbus, v.4, p.81-91, 1972.
Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011 303

CONLEY, T. GMM estimation with cross-sectional dependence. J. Econ., Oxford, v.92, p.1-45, 1999. DAVIS, T. A. Direct methods for sparse linear systems: fundamentals of algorithms. Philadelphia: Society for Industrial and Applied Mathematics, 2006. 217p. DRUSKA, V.; HORRACE, W. C. Generalized moments estimation for spatial panel data: Indonesian rice farming. Am. J. Agric. Econ., Oxford, v.86, n.1, p.185-198, 2004. ECKSTEIN, Z.; WOLPIN, K. Why youths drop out of high school: the impact of preferences, opportunities, and abilities. Econometrica, Oxford, v.67, p.1295-1340, 1999. EGGER, P.; PFAFFERMAYR, M.; WINNER, H. An unbalanced spatial panel data approach to US state tax competition. Econ. Lett., Amsterdam, v.88, n.3, p.329-335, 2005. ELHORST, J. P. Specification and estimation of spatial panel data models. Int. Reg. Sci. Rev., Philadelphia, v.26, n.3, p.244-268, 2003. EPPLE, D.; SIEG, H. Estimating equilibrium models of local jurisdictions. J. Pol. Econ., London, v.107, p.645-681, 1999. FOTHERINGHAM, A. S.; BRUNSDON, C.; CHARLTON, M. Geographically weighted regression: the analysis of spatially varying relationships. New York: John Wiley & Sons, 2002. 262p. FOTHERINGHAM, A. S.; BRUNSDON, C.; CHARLTON, M. Quantitative geography: perspectives on spatial data analysis. London: Sage Publications, 2000. 282p. FOTHERINGHAM, A. S.; CHARLTON, M.; BRUNSDON, C. Geographically weighted regression: a natural evolution of the expansion method for spatial data analysis. Environ. Plann. A, London, v.30, n.11, p.1905-1927, 1999. HAHN, J.; TODD, P.; VAN DER KLAAUW, W. Identification and estimation of treatment effects with a regression-discontinuity design. Econometrica, Oxford, v.69, p.201-209. 2001. HAMILTON, J. D. Time series analysis. Princeton: Princeton University Press, 1994. 799p. HENDRY, D. F. Dynamic econometrics. Advanced texts in econometrics. Oxford: University Press, 1995. HOLMES, T. J. Structural, experimentalist, and descriptive approaches to empirical work in regional economics. J. Reg. Sci., Philadelphia, v.50, n.1, p.5-22, 2010. KEANE, M.; WOLPIN, K. I. The career decisions of young men. J. Pol. Econ., London, v.105, p.473-522, 1997. KELEJIAN, H. H.; PRUCHA, I. R. A generalized spatial two-stage least squares procedure for estimating a spatial autoregressive model with autoregressive disturbances. J. Real State Finance Econ., Dordrecht, v.17, n.1, p.99-121, 1998.

304

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011

KELEJIAN, H. H.; PRUCHA, I. R. Estimation of spatial regression models with autoregressive errors by two-stage least squares procedures: a serious problem. Int. Reg. Sci. Rev., Philadelphia, v.20, n.1, p.103-111, 1997. KELEJIAN, H. H.; PRUCHA, I. R.; YUZEFOVICH, Y. Instrumental variable estimation of a spatial autoregressive model with autoregressive disturbances: large and small sample results. In: LESAGE, J.; PACE, R. K. Spatial and spatiotemporal econometrics, advances in econometrics, New York: Elsevier, 2004. v.18, p.163-198. KELEJIAN, H. H.; ROBINSON, D. P. 2SLS and OLS in a spatial autoregressive model with equal spatial weights. Reg. Sci. Urban Econ., Amsterdam, v.32, n.6, p.691-707, 2002. KELEJIAN, H. H.; ROBINSON, D. P. HAC estimation in a spatial framework. J. Econ., Amsterdam, v.140, n.1, p.131-154, 2007. KELEJIAN, H. H.; ROBINSON, D. P. Spatial autocorrelation: a new computationally simple test with an application to per capita county police expenditures. Reg. Sci. Urban Econ., Amsterdam, v.22, n.3, p.317-331,1992. KELEJIAN, H. H.; ROBINSON, D. P. Specification and estimation of spatial autoregressive models with autoregressive and heteroskedastic disturbances. J. Econ., Amsterdam, 2009. LEE, L. GMM and 2SLS estimation of mixed regressive, spatial autoregressive models. J. Econ., Amsterdam, v.137, n.2, p.489-514, 2007. LESAGE, J. Bayesian estimation of spatial autoregressive models. Int. Reg. Sci. Rev., Philadelphia, v.20, n.1-2, p.113-129, 1997. LESAGE, J.; PACE, R. K. Introduction to spatial econometrics. Boca Raton: CRC Press, 2009. LESAGE, J. The family of geographically weighted regression models. In: ANSELIN, L., FLORAX, R. J. G. M.; REY, S. J. Advances in spatial econometrics. New York: Springer, 2004. LESAGE, J. The theory and practice of spatial econometrics. Toledo: Department of Economics, University of Toledo, 1999. MANSKI, C. Identification of endogenous social effects: the reflection problem. Rev. Econ. Stud., Oxford, v.60, n.3, p.531-542, 1993. MATYAS, L. Generalized method of moments estimation: themes in modern econometrics. Cambridge: Cambridge University Press, 2008. 332p. McMILLEN, D. P. Issues in spatial data analysis. J. Reg. Sci., London, v.50, n.1, p.119141, 2010. NEVO, A. Measuring market power in the ready-to-eat cereal industry. Econometrica, Oxford, v.69, n.2, p.307-342, 2001.
Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011 305

NEWEY, W. K.; WEST, K. D. A simple, positive semi-definite, heteroskedasticity and autocorrelation consistent covariance matrix. Econometrica, Oxford, v.55, p.703-708, 1987. PACE, R. K.; BARRY, R. Simulating mixed regressive spatially autoregressive estimators. Comput. Stat., Heidelberg, v.13, n.3, p.397-418, 1998. PACE, R K.; BARRY, R. Sparse spatial autoregressions. Stat. Probabil. Lett., Amsterdam, v.33, p.291-297, 1997. PETRIN, A. Quantifying the benefits of new products: the case of the minivan. J. Political Econ., Chicago, v.110, n.4, 2002. PINKSE, J.; SLADE, M. E.; BRET, C. Spatial price competition: a semiparametric approach. Econometrica, Oxford, v.70, n.3, p.1111-1153, 2002. PINKSE, J.; SLADE, M. E. Mergers, brand competition, and the price of a pint. Eur. Econ. Rev., Amsterdam, v.48, n.3, p.617-643, 2004. PINKSE, J.; SLADE, M. E. The future of spatial econometrics. J. Reg. Sci., London, v.50, n.1, p.103-117, 2010. POFAHL, G. Essays on horizontal merger simulation: the curse of dimensionality, retail price discrimination, and supply channel stage-games. Tese (Doutorado), Texas A&M. University, College Station, 2007. QUANDT, R. The estimation of the parameters of a linear regression system obeying two separates regimes. J. Am. Stat. Assoc., Schaumburg, v.53, p.873-880, 1958. SCHABENBERGER, O.; GOTWAY, C. A. Statistical methods for spatial data analysis. Florida: Chapman & Hall/CRC, 2009. (Texts in Statistical Science). TANNER, M. Tools for statistical inference, methods for the exploration of posterior distributions and likelihood functions. New York: Springer-Verlag, 1996. 207p. (Series in Statistics). Recebido em 19.01.2011 Aprovado aps reviso em 17.06.2011

306

Rev. Bras. Biom., So Paulo, v.29, n.2, p.273-306, 2011