Вы находитесь на странице: 1из 34
I. MÉTODOS ESTATÍSTICOS APLICADOS À CLIMATOLOGIA 1. Métodos analíticos O estudo de Climatologia é baseada

I. MÉTODOS ESTATÍSTICOS APLICADOS À CLIMATOLOGIA

1. Métodos analíticos

O estudo de Climatologia é baseada na análise e interpretação de dados meteorológicos colectados durante muitos anos. Para analisar tais dados, um conhecimento de métodos estatistícos básicos e técnicas é necessário. A análise climatológica usa princípios e técnicas de análise meteorológica, numérica e estatística.

Tratamentos analíticos de observações individuais incluem os seguintes:

Análise meteorológica convencional (isolinhas) de mapas sinópticos diários históricos; Interpolação de observações falhadas; Extrapolação de sondagens de atmosfera superior incompletas; Verificação não rotineira de observação de precisão duvidosa; Interpretação de observações incompletamente identificadas, anotadas ou documentadas; Estabelecimento de métodos para combinar apropriadamente observações similares codificadas diferentemente; Interpretação de porções de códigos que são ambiguos (no computador).

Tratamentos analíticos de observações sumarizadas incluem:

Análise de isolinhas para mapas climáticos; Análise de distribuições de frequência, espalhogramas, etc; Interpolação para preencher falhas em observações sumarizadas (médias mensais, etc) Preparação de monogramas ( códigos e unidades climatológicas, conversões, manuais de verificação, etc) Verificaçao de sumários em tabelas ou gráficos; Análise de diferença ou de razão para redução a uma estação única de dados de estação que mudou de localização ou exposição; Selecção de estações ou áreas representativas de regiões maiores.

2. Séries climatológicas Os métodos de análise estatística se aplicam a dados climatológicos porque, de

2. Séries climatológicas

Os métodos de análise estatística se aplicam a dados climatológicos porque, de maneira geral, se esses dados são obtidos de forma apropriada, sequências desses dados se comportam como variáveis aleatórios. Uma vez que a análise estatística se aplica a amostras de populacõess de dados, as sequências de dados climatológicos são definidas como amostras de dados que consistem de um valor climatológico de cada ano do registo considerado. Assim, as 30 temperaturas médias de Janeiro para um registo de 30 anos compõem uma série climatológica. As 30 precipitações de 1 o de Janeiro também formam uma série climatológica.

Uma série climatológica nunca é mais que uma amostra de uma popupalação única que se supões infinita e tendo as propriedades climáticas a serem analisadas da amostra.

3. A distribuição de frequência

A distribuição de frequência é a ferramenta básica para descrever e analisar a amostra. Divide-se a amostra em classes que são divisões do intervalo de variação da variável climatológica. O número de classes mais convinientes está entre 10 e 20 divisões iguais. Isso divide a diferença entre o maior e o menor valor(ou amplitude) em 10 a 20 intervalos iguais. Como exemplo se usarão os dados de precipitação de Agosto em Genebra.

r max = 250 mm r

min = 18 mm

r = 250 18 = 232 mm

Como 20 mm é uma divisão conveniente e dá 13 divisões, este é um intervalo bom. Definindo os intervalos para as diferentes classes contam-se os anos em que a precipitação é contida em cada intervalo e obtémse a distribuição de frequências que pode ser representada como um histograma. Os f’’s podem ser divididos por 30 para se obter as frequências relativas em cada intervalo de classe. Estes valores são estimativas das probabilidades na população de quantidades de precipitação nos vários intervalos de classes.

Tabela 1. Precipitação (mm) do mês de Agosto, na Suiça em Genebra Ano P Ano

Tabela 1. Precipitação (mm) do mês de Agosto, na Suiça em Genebra

Ano

P

Ano

P

Ano

P

1927

250

1937

78

1947

54

1928

147

1938

79

1948

72

1929

83

1939

85

1949

49

1930

108

1940

18

1950

110

1931

171

1941

105

1951

100

1932

62

1942

48

1952

125

1933

67

1943

41

1953

57

1934

119

1944

44

1954

206

1935

157

1945

133

1955

107

1936

23

1946

158

1956

144

Tabela 2. Distribuição da frequência de Precipitação (mm) do mês de Agosto, na Suiça em Genebra

P

f

P

f

0

19

1

140 159 160 179 180 199 200 219 220 239 240 259

4

20

39

1

1

40

59

6

0

60

79

5

1

80

99

2

0

100

119

6

1

120

139

2

7 6 c i a 5 n e u q 4 e r F 3

7 6 c i a 5 n e u q 4 e r F 3
7
6
c i a
5
n
e
u
q
4
e
r
F
3
2
1
0

Figura1. Histograma da precipitação do mês de Agosto na Suiça, em Genebra

4. Distribuição cumulativa

Usualmente o climatologista está mais interessado nas estimativas de probabilidade abrangendo vários intervalos de classe, e isto é mais convenientemente obtido da distribuição cumulativa. Também, a distribuição cumulativa dá estimativas melhores das probabilidades, uma vez que a divisão arbitária em classes tende a esconder algumas das informações presentes na série climatológica.

Para obter a distribuição cumulativa os dados são primeiramente colocados em ordem crescente. Os F’s são as frequências relativas acumuladas ou probabilidades cumulativas da população:

F = m/(n + 1) Onde m é o m-ésimo valor em ordem e n é o número de termos na série climatológica. A divisão por (n + 1) ao invés de n dá uma estimative melhor das probabilidades, principalmente nas extremidades.

As F’s são as probabilidades de que a precipitação seja menor que cada valor mostrado na tabela. Por exemplo, a probabilidade de que p seja menor que 62 mm é 0.290 e maior que 62

mm é 1 – F = 0.710 a probabilidade de que esteja entre 62 mm

mm é 1 F = 0.710 a probabilidade de que esteja entre 62 mm e 100 mm é 0.516 0.290 =

0.226.

O intervalo médio de recorrência ou período de retorno (isto é o intervalo de tempo médio entre ocorrências) para valores excedendo qualquer valor p é 1/(1-F). Por exemplo para precipitação excedendo 100 mm o intervalo de recorrência média é 1/( 1- 0.516) = 1/0.484 = 2.07, aproximadamente 2 anos.

Aqui é interessante dividir a amostra em 2, 4 ou 10 partes iguais. Se a amostra for dividida em duas partes, o valor central da amostra será tal que metade da amostra terá valores abaixo deste, que será chamado a mediana. No caso do exemplo do item 3 a mediana se encontra entre os valores 85 mm e 100 mm, ou seja : (85 + 100)/2 = 92.5 mm. Pode-se interpretar esse valor como: metade dos anos a precipitação em Agosto, em Genebra, é menor que 92.5 mm ou, a probabilidade de que a precipitação seja menor que 92.5 mm é de 50%.

Da mesma forma, se a amostra for dividida em quartis ( 4 partes), os limites definirão percentagens de 25 e 50 e 75 % e, se dividida em decis (10 partes) os limites definirão limites de 10, 20, 30, 40, 50, 60, 70, 80, e 90 % de probabilidade de ocorrência. Assim, no exemplo dado, os limites serão:

Mínimo = 18 1 o decil = 41 2 o decil = 49 1 o quartil = 55.5 3 o decil = 62 4 o decil = 78 5 o decil = 92.5 6 o decil = 107 7 o decil = 119 3 o quartil = 129

8 o decil = 144 9 o decil = 158 máximo = 250 Tabela3. Distribuição

8 o decil = 144 9 o decil = 158 máximo = 250

Tabela3. Distribuição cumulativa da precipitação (mm) de Agosto na Suiça, em Genebra

m

P

F

m

P

F

m

p

F

1

18

0.032

11

72

0.355

21

119

0.677

2

23

0.065

12

78

0.387

22

125

0.710

3

41

0.097

13

79

0.419

23

133

0.742

4

44

0.129

14

83

0.452

24

144

0.774

5

48

0.161

15

85

0.484

25

147

0.806

6

49

0.194

16

100

0.516

26

157

0.839

7

54

0.226

17

105

0.548

27

158

0.871

8

57

0.258

18

107

0.581

28

171

0.903

9

62

0.290

19

108

0.613

29

206

0.935

10

67

0.323

20

110

0.645

30

250

0.968

a v i 1.200 t a l e r a 0.900 i c n e

a v i 1.200 t a l e r a 0.900 i c n e
a v
i
1.200
t a
l
e
r
a
0.900
i
c
n
e
u
0.600
q
e
r
F
0.300
0.000
0
40
80
120
160
200

Figura 2. Distribuição cumulativa da precipitação de Agosto

5. Homogeneidade de series de dados

Uma série de dados é dita homogênea se é uma amostra de uma população única. Assim, por definição uma série climática é homogênea e a análise de probabilidade elementar só pode ser aplicada a séries climatológicas. Se a série não é homogênea, devem ser feitos ajustes para que as estimativas estatísticas sejam válidos para os últimos termos da série ou de modo que elas sejam estimativas de uma série hipotética homogênea que inclua os últimos termos.

Em casos que a exposição dos instrumentos tenha mudado é necessário fazer um teste estatístico para assegurar a homogeneidade. O teste válido de homogeneidade é um teste estatístico que parte de uma hipótese de homogeneidade e uma regra para aceitar ou rejeitar a hipótese com base na probabilidade de ocorrência. Assim, se a probabilidade da evidência da homogeneidade é pequena, conclui-se que a série é heterogênea; se ela é grande a decisão é pela homogeneidade. A regra especifica a probabilidade limite (limite de significância) além da qual a hipótese de homogeneidade deve ser rejeitada.

As alternativas para a homogeneidade de uma série de dados climatológicos são usualmente o desvio da média, a tendência ou alguma forma de oscilação. Uma vez que estas alternativas, principalmente a última, são difíceis de especificar exactamente, é melhor usar um teste não

paramétrico que não exija a especificação exacta destas alternativas ou da distribuição homogênea. Um teste

paramétrico que não exija a especificação exacta destas alternativas ou da distribuição homogênea. Um teste bem conhecido, não paramétrico, que é sensível a todas estas alternativas, é o teste das corridas, de Swed e Eisenhart.

Contam-se as corridas (u) acima e abaixo da mediana numa série cronologicamente ordenada

e testa-se este valor com uma tabela de distribuição de u. O teste é melhor ilustrado pela

aplicação às temperaturas médias de Agosto em Genebra. A tabela 5 mostra os dados em ordem cronológica ou histórica. A mediana está entre 18.9 e 19.2 0 C, melhor estimada pela média entre estes dois valores, isto é 18.9 e 19.05 o C. Usando este valor, as médias na tabela

são indicadas com um A se estão acima. As corridas são então marcadas como sequências de A`s e de B`s. O mínimo total de corridas no caso é u = 15.

É claro que muitas corridas seriam uma indicação da oscilação, enquanto que poucas corridas

seriam uma indicação de tendência ou deslocamento da mediana durante o período. Assim, se

a probabilidade do u resultante ser excedido for pequena suspeitar-se-à uma oscilação

enquanto que, se a probabilidade de encontrar valores maiores ou menores que u for grande, então nem oscilação nem tendência sera suspeitada e a série é dita homogênea. A tabela 6 dá a distribuição de u. Uma vez que foi escolhida a mediana como referência, o número de valores acima dela (N A ) é igual ao número de valores abaixo (N B ). Na tabela estão indicados os limites superiores e inferiores de 10 % de significância, isto é, a probabilidade P de 0.10 e 0.9 de u ser menor que u 0.10 ou menor que u 0.90 , respectivamente.

Estes limites de 10 % de significância são satisfatórios para muitas aplicações climatológicas porque, devido á alta variablidade, desejável aumentar os limites da probabilidade significante para aumentar as chances de aceitação da hipótese alternativa. Uma vez que u é discreto, os valores de u mostrados na tabela são aqueles correspondentes às probabilidades mais próximas de 0.10 e 0.90. Se um valor de u cai abaixo do limite inferior, o que poderia acontecer só em 10% dos casos, a heterogeneidade seria devido a tendência ou deslocamento, se cair acima do limite superior, o que também só acontece em 10 % dos casos, a heterogeneidade é devida à oscilação.

Vê-se na tabela 5 que u = 15 para N A = 15 está dentro

Vê-se na tabela 5 que u = 15 para N A = 15 está dentro do intervalo entre o limite mínimo (12) e o limite máximo (19), portanto u não é significativamente diferente dos u`s esperados de uma série homogênea, e se conclui que a série é homogênea.

Para ilustrar melhor a aplicação do teste das corridas a série foi em seguida deliberadamente tornada heterogênea subtraindo-se 1 o C de cada um dos 12 primeiros anos e subtraindo-se 0.5 o C de cada um dos 8 anos seguintes. Este tipo de tendência poderia bem ter sido causado, por exemplo, por mundanças na exposição dos instrumentos, ou falta de calibração ou mesmo, quem sabe, por uma legítima mudança ou flutuação do clima. A série heterogênea é mostrada na tabela 7.

O número de corridas é diminuido para u= 11 devido aos dois deslocamentos que de facto produzem uma espécie de tendência. Na tabela 6 vê-se que para N A = 15 a probabilidade de haver menos que 12 corridas é 10 % e como a série heterogênea tem apenas 11 corridas, confirma-se a heterogeneidade. Obviamente já se sabia da heterogeneidade porque ela foi introduzida deliberadamente. Pode-se suspeitar deste exemplo que a habilidade destes testes para encontrar heterogeneidades não sera muito boa quando as exactas alternatives para homogeneidade não são conhecidas. Isto indica que a melhor maneira dos registros da estação. Se a história dos registros mostra mudanças que podem causar heterogeneidades e que possam ser descritas de acordo com o período e o caracter, podem-se usar testes paramétricos para determinar a significância das heterogeneidades, como por exemplo o teste t de Student. Tais testes entretanto, só podem ser empregados quando os períodos e o carácter das heterogeneidades são conhecidos a priori.

Tabela 5. Corridas das series de temperatura observadas ( o C) na Suiça em Genebra

Ano T o Ano T o Ano T o 1927 17.4 B 1937 19.5 A

Ano

T o

Ano

T o

Ano

T o

1927

17.4 B

1937

19.5 A

1947

22.0 A

1928

20.9 A

1938

18.5 B

1948

18.9 A

1929

18.7 B

1939

18.6 B

1949

20.7 A

1930

18.7 B

1940

17.9 B

1950

19.7 A

1931

16.9 B

1941

17.8 B

1951

19.5 A

1932

20.8 B

1942

19.9 A

1952

20.3 A

 

1933

20.4 A

1943

20.9 A

1953

19.8 A

1934

17.9 B

1944

22.9 A

1954

18.3 B

1935

18.1 B

1945

18.9 B

1955

19.3 A

1936

18.5 B

1946

19.2 A

1956

17.5 B

 

Tabela 6. Tabela de distribuição de número de corridas (U), N A = N B

 

M

p

F

m

P

F

   

NA

0.10

0.90

NA

0.10

0.90

 

10

8

13

19

16

23

 

11

9

14

20

16

25

 

12

9

16

25

22

30

 

13

10

17

30

26

36

 

14

11

18

35

31

41

 

15

12

19

40

35

47

 

16

13

20

45

40

52

 

17

14

21

50

45

57

 

18

15

22

       

Tabela 5. Corridas das series de temperatura ( o C) heterogênea na Suiça em Genebra

Ano T o Ano T o Ano T o 1927 16.4 1937 18.5 1947 22.0

Ano

T o

Ano

T o

Ano

T o

1927

16.4

1937

18.5

1947

22.0

1928

19.9

1938

17.6

1948

18.9

1929

17.7

1939

18.1

1949

20.7

1930

17.7

1940

17.4

1950

19.7

1931

15.9

1941

17.3

1951

19.5

1932

19.8

1942

1952

20.3

1933

19.4

1943

20.4

1953

19.8

1934

16.9

1944

19.4

1954

18.3

1935

17.1

1945

18.4

1955

19.3

1936

17.5

1946

18.7

1956

17.5

5. Ajuste de medias climatológicas

A heterogeneidade em series de dados climatológicas é usualmente devida a algum factor pertubador como uma mudança na localização da estação ou mudança na exposiçao. Embora no passado se tenha tentado homogeneizar a série, deve ficar claro que é impossível faze-lo, no sentido que uma nova série de valores individuais possa ser derrivada com as mesmas propriedades como se fosse uma amostra da população real. Qualquer ajuste pertuba a variabilidade da série e portanto muda a escala da dispersão da distribuiçao da frequência. Entretanto é possível ajustar certas estatísticas da série de modo que estes valores ajustados sejam efectivamente semelhantes aos estimados da população apropriada. A aplicação mais comum de tais ajustes é às medias dos dados com o propósito de obter a normal. É recomendado que tais ajustes sejam feitos se possível apenas com base em heterogeneidades a priori.

Os métodos envolvem o uso de uma estação suplementar com um registro concorrente homogêneo. Esta estação deve ser a mais próxima possível, uma vez que a eficiência do ajuste

depende da correlação entre as duas estações. É conviniente usar uma estação a menos de

depende da correlação entre as duas estações. É conviniente usar uma estação a menos de 80 km da estação a ser ajustada e no mesmo regime climático. Se uma estaçao suplementar não tem um registro concorrente completo, o ajuste pode ser feito em estágios, usando diferentes estações suplementare para cada período.

Método da diferença Para ilustrar o método tomar-se-á a série de temperaturas de Genebra em Agosto tornada heterogênea resultando a tabela 7. Supõe-se que a estação foi mudada após 8 anos e que queira ajustar a média dos últimos 30 anos ao último período de 10 anos em que a estação não foi perturbada.

Para ajustar a media da temperatura do registro de Genebra, dados os valores para os períodos heterogeneous e também os homogêneos, decidiu-se que Lousane seria uma estação suplementar conviente.

A fórmula de ajuste para a temperatura é>

Ÿ = a + X

X é a média para o período homogêneo na estação suplementar correspondente ao período

heterogêneo da estação cujo registro está sendo ajustado, Y é a media ajustada. A constante de

ajuste a é estimada pela equação

y = v u

v e u são as médias para os períodos concorrentes em que os registos da estação suplementar e da estação a ser ajustada são homogêneos simultaneamente. Obtito a, os y para as várias partes do registro de 30 anos contribuem para a média ponderada com pesos de acordo com o comprimento do período em anos de cada parte do registro.

As médias para cada período foram obtidos da tabela 7 e mostradas na tabela 8.

Substituindo os valores homogêneos de u e v obtém-se a estimativa do factor de ajuste

Substituindo os valores homogêneos de u e v obtém-se a estimativa do factor de ajuste a = 19.6 18.2 = 1.4. A seguir se obtém os valores ajustados y = 17.9 + 1.4 = 19.3, y = 18.2 + 1.4 = 19.6. Depois se multiplicam os valores de y por 12.8 e 10, que são os respectivos tamanhos das partes do registro a ser ajustado e divide-se por 30 para obter a média ponderada 19.5. Esta é a média estimada ajustada para a temperatura média de Agosto de Genebra. Note-se que este valor se compara bem com a média real do registro não perturbado que é 19.3.

Tabela 8. Temperatura média ajustada (oC) em Genebra, na Suiça

 

Genebra-Unadjusted

Lausanne X

Means

Geneva y

1927

- 1938

17.9

(17.9)

19.3*

1939

- 1946

18.4

(19.0)

19.8*

1947

18.2

18.2

- Adjusted Record Mean

(19.6)

19.6

19.5*

5.2. Método da razão

Para ilustrar a aplicação do método da razão para ajuste de precipitação, o registo de Pr anual de Genebra de 1927 a 1956 foi tornado heterogêneo pela multiplicação de cada valor dos 12 primeiros anos por 0.9 deixando os últimos 10 anos não perturbados. A série heterogênea resultante está mostrada na tabela 9.

Ao se testar a homogeneidade da série chega-se ao valor u = 9 corridas, do que pela tabela 6 se conclui pela heterogeneidade.

Uma vez que heterogeneidades em series de precipitação são mudanças de escala na distribuição de frequêncies, é apropriado ajustar as heterogeneidades através de um ajuste de escala, isto é, usando a razão entre totais homogêneos.

Por este princípio, se y é a Pr para um ano na estação a ser

Por este princípio, se y é a Pr para um ano na estação a ser ajustada, e x é o correspondente valor para a estação suplementar, então ∑y = b ∑x, onde os somatórios são para um período heterogêneo na estação a ser ajustada.

A constante de ajuste b é estimada pela equação b = v / u Onde v é a soma das precipitações no período homogêneo da estação a ser ajustada e u é a soma no período correspondente da estação suplementar. Este período deve ser, obviamente, o último período do registro para estações activas uma vez que é desejável ajustar a uma população da qual valores na actual localização da estação activa vão ser obtidos e deveriam ter sido obtidos no passado.

Os resultados são mostrados na tabela 10. Tomando os valores de v e u da tabela para o período homogêneo, obtém-se:

b = 1024/1267 = 0.8082 Os valores ajustados para os períodos homogêneos serão:

y = 0.8082 X 1602 = 1295 e Ey = 0.8082 X 753 = 609

Finalmente, somandi os valores e dividindo-se por 30 obtém-se a media:

Y = (1295 + 609 + 1024) / 3. = 97.6 mm/ano

Que é uma estimativa melhor para a Pr média de Genebra (100 mm/ano) do que a média de série heterogênea ( 106.9 mm/ano).

6. Estimativas de parâmetros estatísticos

Um parâmetro estatístico é um valor fixo função de todos os valores de uma população. Por exemplo, a média de uma população á média de todos os valores da população. Uma vez que a

população de valores inteira não pode ser conhecida em climatológia, só é possível estimar os

população de valores inteira não pode ser conhecida em climatológia, só é possível estimar os parâmetros estatistísticos da população a partir de amostras ou séries climatológicas. A estimativa de um parâmetro é chamada estatística.

Uma estatística é uma função da série climatológica, e como tal é uma variaável aleatória sujeita a variações aleatórias similares às dos valores da série. Assim, cada estatística forma uma população para a qual existe uma distribuição de frequência. A variabilidade destas estatísticas em torno do correspondente parametro da população é chamada dispersão da estatística. Existem sempre várias funções ( ou estatísticas) da amostra que estimam o mesmo parâmetro da população. Por exemplo, para estimar o centro de uma distribuição gausiana pode-se usar a mediana ou a média. Entretanto, diferentes estimativas têm diferentes dispersões, e a melhor estimativa terá a menor dispersão. No exemplo acima, as médias de diferentes amostras tem menor dispersão que as medianas das mesmas amostras. A dispersão também diminui com o aumento do tamanho da amostra. Assim, para que a dispersão da mediana seja igual à da média é nesessário que a amostra usada para determinar a mediana seja cerca de1/3 maior que a amostra usada para calcular a média e assim a mediana ser uma estimativa para a média da população tão boa quanto o é a média de uma amostra.

7. Estatísticas comuns de variáveis climatológicas

Existem diferentes estatísticas ou estimativas da população dos valores climatológicos calculados a partir de amostras. Algumas das mais comuns são descritas abaixo.

Moda ( uma denominação mais apropriada seria “modo”) é o valor da variável aleatória com máxima densidade de probabilidade, ou o valor mais provável. Se a expressão analítica da distribuição da frequência for conhecida, estimativas eficientes da moda podem ser obtidas através da derrivação da mesma. Se a forma analítica não é conhecida e a amostra é grande, o centro da classe com maior frequência pode ser tomada como estimativa da moda. No caso de haver mais de uma moda (distribuição multimodal) é provavel que haja mais de uma distribuição superpostas ou então uma mistura de amostras de diferentes populacões numa tentativa de aumentar o tamanho das amostras.

Mediana – é o valor da variável abaixo do qual (ou acima do qual) a

Mediana é o valor da variável abaixo do qual (ou acima do qual) a probabilidade de ocorrência é 50 %. Se a forma analítica da distribuição for conhecida, integra-se até obter o valor 0.5. Caso contrário, toma-se o valor correspondente à probabilidade cumulativa de 50 %. A mediana pertence à classe das quantidades chamadas “quantis” definidas como o valor X F para o qual F é a probabilidade de X ser menor que X F . A mediana seria o quantil X 0.5 .

Média é o paramêtro climatológico mais usado. Na maioria dos casos é melhor obtê-lo somando os valores e dividindo a soma pelo número de anos. Ela é o valor esperado ou esperança matemática, isto é, a média da população. Também é o centro da distribuição normal para séries climatológicos com esta distribuição. A mdia calculada como acima é geralmente óptima para estimar o valor esperado e o centro da distribuição da temperatura.

Os momentos em torno da média, ou momentos centrais são também empregados. São definidos por:

µr = R (x u) r f (x) dx Onde µr é r-ésimo momento, u é a média, f(x) é a função densidade da probabilidade, ou curva de frequência, R é o intervalo da população ou região onde f(x) é definido.

Variância o segundo momento ou variância é

s 2 =

∑n(x - µ ) 2 / (n 1)

Desvio padrão é a raiz quadrada da variância

= Os momentos de ordem superior podem ser estimados por

m r = ∑n (x – u) r / n

Deslocamento da média (skewness) é a medida do quanto a média está deslocada em

relação ao valor mais provável (moda) e geralmente é expresso por g 1 = m 3 /s 3

S

√S 2

g 1 será positivo se a média estiver deslocada para valores maiores que a moda,

g 1 será positivo se a média estiver deslocada para valores maiores que a moda, ou seja, se a curva de frequência tiver uma “cauda” maior do lado dos maiores valores, o contrário ocorrendo para g1 negativo.

Convexidade (Kurtosis) é a medida da uniformidade da amostra e está associada ao quarto momento, geralmente por:

g 2 = (m 4 /s 4 ) - 3 Se ocorre um pico na distribuição de frequêncies g2 é pequeno, se a distribuição de frequências é mais espalhada g 2 é grande. Geralmente g 2 é substituido por a = ∑n |x – µ| / (ns)

Momentos de ordem superior a 4 não são recomendáveis para séries climatológicas, uma vez que são muito variáveis para amostras pequenas como são o caso das séries climatológicas geralmente disponíveis.

Amplitude é a diferença entre o maior e o menor valor da amostra não é recomendado senão para trabalhos grosseiros, devido à sua grande variabilidade.

Coeficiente de variabilidade ou desvio padrão relativo, é também usado em climatologia. (= S / µ ).

8. Métodos estatísticos gerais Os problemas básicos de análise climatológica podem ser classificados em três

8. Métodos estatísticos gerais

Os problemas básicos de análise climatológica podem ser classificados em três tipos gerais:

Problemas de especificação para a escolha da forma analítica da distribuição de frequÊncia da população. Isso pode ser feito empiricamente ou usando raciocinios teóricos. Uma especificação empírica da população usualmente consiste em supor a existência de uma distribuição de probabilidade com a forma característica de ogiva. Uma especificação teórica é derrivada de considerações a respeito dos limites da variável; comportamento de escala, localização e forma, etc.

Problemas de inferência que ocorrem na estimativa de parâmetros da população. São resolvidos através de estatísticas mais satisfatórias, as que têm menor dispersão. Intervalos de confidência para estimativas de parametros devem ser feitos para assegurar se a população obedece a certas condições prescritas, por exemplo, testes para examinar a homogêneidade de series.

Problemas de correlação entre várias variáveis climatológicas e entre variáveis climatológicas. O primeiro problema aparece quando é necessário substituir variáveis climatológicas não disponíveis ou nova variável que tenha algumas propriedades especiais. Por exemplo, estimar estatísticas de temperaturas diárias a partir de séries de temperaturas médias mensais. Ou então a temperatura acumulada de crescimento, que é um exemplo de uma função da temperatura útil para agricultura.

9. Distribuição de frequências Existem diferentes funções matemáticas analíticas que podem ser usadas para ajustar uma distribuição de frequências. As distribuições de frequência são de dois tipos: discretas e continuas. Nas distribuições discretas a densidade de probabilidade é função de uma variável aleatória discreta, isto é, varia em degraus ou patamares. Por exemplo: número de tempestades com granizo, dias com chuva, etc. Nas distribuições contínuas a densidade de probabilidade é uma função de uma variável aleatória continua. Exemplos: temperatura, pressão, precipitação,

ou qualquer variável mensurável numa escala contínua. Abaixo serão descritas algumas distribuições comumente usadas

ou qualquer variável mensurável numa escala contínua. Abaixo serão descritas algumas distribuições comumente usadas em climatológia. 9.1. Distribuiçãao normal

A Distribuição normal ou gaussiana é representada pela função de densidade de probabilidade:

F(x) = (1/σ √2 л) exp (- (x-µ) 2 / 2σ 2 Onde µ é a média da população e σ o desvio padrão. O parâmetro µ é estimado por x e σ por s.

Em geral a função de densidade de probabilidade é expresso em tabelas tendo como argumento uma variável padronizada:

u = (x – µ )/ σ

Para a qual u = o e σ u = 1, assim f(x) = (1/√2 л) exp (2 / 2) e a probabilidade acumulada é:

F(t) = (1/ √2 л) -∞∫ t exp (-µ 2 /2) du que podem ser transformados em qualquer distribuição normal, simplesmente substituindo µ e σ.

A importância da distribuição normal na climatológia vem do teorema do limite central. Isso

faz com que a soma de um número suficiente de valores climatológicos seja distribuida normalmente. Por exemplo, séries climatológicas de precipitação para períodos curtos para os quais a Pr média é pequena, têm distribuições muito deslocadas. Quando o período aumenta, vários períodos curtos são somados e ocorre um aumento na média e a soma se aproxima de uma distribuição normal. Em condições médias, períodos com uma Pr média de 500 mm ou

mais serão aproximadamente normalmente distribuídos.

A distribuição normal produz bons ajustes para variáveis climatológicas não limitados acima

ou abaixo, como a temperatura e a pressão. A amostra a ser ajustada, porém, deve vir de uma

série claimatológica homogênea. Não pode também provir de populaces misturadas, como as que contém várias modas.

9.2. Distribuição gama Uma vez que existem várias variáveis continuas em climatológia que são limitadas

9.2. Distribuição gama

Uma vez que existem várias variáveis continuas em climatológia que são limitadas pelo valor

zero, é importante encontrar distribuições matemáticas com essa propriedade. É o caso da distribuição gama definida por sua função densidade de probabilidade (ou frequência):

g(x) = x -1 / (β γ (Γ (γ) exp (-x/ β)

Onde β é um parâmetro de escala, γ é um paramêtro de forma e Γ(γ) = (γ –1)!

Neste caso os momentos não dão boas estimativas dos parametros, mas existem outras estimativas suficientes:

Γ = (1 + [1 + 4A/3) 1/2 ]/(4A)

 

=

µ / γ

A

= lnµ - ∑n lnµ/n

A

função de distribuição, da qual as probabilidades podem ser obtidas, é:

G(t) = 0 t g(x) dx

Existem tabelas da função gama que dão G(x), onde u = µ/σ, σ = β √γ.

6.2. Distribuição binomial e distribuição de Poisson

A função de distribuição binomial é dada por:

F(x) = ﴾m, x﴿ p x (1 p) m-x

Onde p é a probabilidade de ocorrência de um evento, (1 p) é a probabilidade do mesmo evento não ocorrer, e x pode tornar os valores 1,2,…, m, que são as frequências de ocorrência possíveis. Esta distribuição em geral não se ajusta bem a séries climatológicas mas se relaciona com a distribuição de Poisson quando m se torna grande e p tende a zero.

A Distribuição de Poisson se aplica a eventos com pequena probabilidade. Como isto também

significa que um pequeno número de eventos é encontrado em média num intervalo de tempo anual, a distribuição, por exemplo se ajusta à frequência anual de granizo, a eventos de Pr excessiva, à frequência de ciclones tropicais, etc.

A função de probabilidade de Poisson é dada por: F(x) = µ x e -

A função de probabilidade de Poisson é dada por:

F(x) = µ x e -µ /x!

µ é estimado por x.

A função de distribuição é então

F(x) = x=0 n µ x e -µ /x! pode ser encontrada em tabelas.

9. Análise de regressão

Uma regressão é uma função functional entre uma variável aleatória independente e uma ou mais variáveis aleatórias dependentes. Para um dado conjunto de valores das variáveis independentes a regressão dá um valor médio da variável dependente. A análise de regressão é usada em climatológia para estimar as constantes em relações funcionais onde estas não são dadas directamente como quantidades físicas. Isto é comumente feito pelo método dos mínimos quadrados aplicados aos resíduos em torno da função de regressão quando os valores da variável independente são substituidos.

A função de regressão pode ser um polinómio ou qualquer função analítica ou combimação

linear de funções:

Y

= R (x, a o , a 1 , a 2 , a 3 , …, a k ) por exemplo:

Y

= a o + a 1 x + a 2 x 2 + a 3 x 3

Y

= a o + a 1 x lnx

Se o resíduo para cada valor da variável dependente x i for designado por:

D i = y i R (x i )

A

soma dos quadrados dos residuos será:

S

=

i (y i R(x i ) 2

que depende tanto de x i e y i como dos parâmetros a j . Pra minimizar S, deve-se escolher os a j

solucionando o conjunto de k equações:

ﻻS / ﻻa o = 0 ﻻS / ﻻa 1 = 0

. . . ﻻS / ﻻa k = 0 Como exemplo, seja a regressão linear

.

.

.

ﻻS / ﻻa k = 0

Como exemplo, seja a regressão linear para as séries x i e y i , com n valores cada. A função de regressão seria:

Y

= a + bx

S

= n (y i a bx i ) 2

ﻻS / ﻻa k = -2an (y i a bx i ) = 0 ou n y i na b∑x i = 0

ﻻS / ﻻ b = -2 b ∑x i (y i a bx i ) = 0 ou

∑x i y i a∑x i b∑x i 2 = 0

Note-se que as somatórias conhecidas ( inclusive ∑x i = nx e ∑yi = ny e portanto é possível encontrar a e b:

a

= ∑y i /n + ∑x i (∑x i ∑y i n∑x i y i ) / ((∑x i ) 2 n∑x i 2 ) / n

b

= (∑x i ∑y i - n∑x i y i ) / ((∑x i ) 2 n∑x i 2 )

O

cálculo poderia ser um pouco simplificado se fosse usada a variável u = x µ e então ∑u i =

o

e então:

a

= ∑y i /n e b = ∑u i y i / ∑u i 2

Frequentemente é nesessário testar a regressão ajustada em relação à linearidade. Este teste é feito pela análise de variância. Para uma regressão linear como a feita acima deve-se notar que há uma variabilidade total dos y’s para cada x que é dividida em uma variabilidade explicada pela regressão:

Q

R = ∑(y(x i ) y) 2

e

outra variabilidade que não é explicada pela regressão:

Q

T Q R = ∑ (y i y(x i ) 2

Q

T = ∑ (y i y) 2

O coeficiente r 2 = Q R /Q T dá a proporção das somas dos

O coeficiente r 2 = Q R /Q T dá a proporção das somas dos quadrados ou variabilidades explicada

pela regressão em relação à variabilidade total. Na prática, se r < 0.5 (ou r 2 < 0.25) a regressão

tem pouca utilidade prática.

2 < 0.25) a regressão tem pouca utilidade prática. 10. Análise de correlação A correlação entre

10. Análise de correlação

A correlação entre duas séries temporais está relacionada com a regressão linear entre as mesmas. Define-se a covariância de duas séries como:

cov = ∑n (x i x) (yi Y)/ n

Ela é uma soma dos produtos dos desvios das duas séries em relação às respectivas médias. Note-se que se houver um grande número de casos em que um desvio positivo (ou negativo) de y i , a somatória será positiva e grande e pode-se dizer que as duas series estão correlacionadas positivamente. Istoé, a um aumento de variável x correspondente uma

diminuição da variável x corresponde uma diminuição da variável y. Se não houver uma correlação forte entre as séries, os pares ( variação de x/variação de y) terão sinais aleatórios e

a soma será pequena. O mesmo raciocínio é válido para covariância negativa, onde a uma variação positiva de x corresponde uma variação negativa de y.

Pode-se também definir uma estimativa mais conveniente que é a correlação:

r (x,y) = ∑n(x i – x) (y i – y) / s x s

r (x,y) = ∑n(x i x) (y i y) / s x s y

A divisão pelos desvios padrões de x e y faz com que r varie entre 1 e +1, sendo assim uma versão normalizada de covariância.

11.Correlação defasada

As vezes a influência de uma variável climatológica sobre outra não se faz sentir simultanêamente, mas ocorre algum tempo depois. Por exemplo a temperatura em relação à insolação tem uma defasagem de 1 a 2 meses, dependendo da localização da estação. Assim, a correlação pode ser maior se as séies comparadas estiverem desfasadas de um intervalo u que pode ser de dias, semanas, meses, anos dependendo do tipo de amostra.

r(x,y,u) = ∑(x i (t) x) (y i (t + u) y) / n s x s y

Pode-se então construir um gráfico de r em função da defasagem u, chamado função de correlação. O gráfico da figura 8.4 é função de correlação para as duas séries da figura 8.3. Para u = k = 0, r 12 (0) = 0.4, mas para u = 5 min o pico é de cerca de 0.95, que é uma correlação grande.

Um outro uso da correlação pode ser para descobrir correlações espaciais entre variáveis em pontos distantes entre si. São as chamadas teleconexões. Na figura abaixo mostram-se as correlações entre a temperatura da superfície do mar em diferentes pontos do oceano Atlântico e a Pr no Ceará, Nordeste do Brasil. Note-se que a correlação é geralmente grande para séries em fase ( Fevereiro) próximo do Ceará, como era de se esperar. Porém, há pontos de máxima correlação em outros locais em outros meses, como se a causa da Pr fosse se deslocando em direcção à região de Pr.

12. Autocorrelação A autocorrelação é essencialmente uma correlação de uma série consigo mesmo. R(x,u) =

12. Autocorrelação A autocorrelação é essencialmente uma correlação de uma série consigo mesmo. R(x,u) =
12. Autocorrelação A autocorrelação é essencialmente uma correlação de uma série consigo mesmo. R(x,u) =

12.Autocorrelação

A autocorrelação é essencialmente uma correlação de uma série consigo mesmo.

R(x,u) = n (x i (t) x) (x i (t + u) x) / n s x

2

Para u = 0, r(x,o) = 1, quer dizer, a correlação é máxima. A figura 1.2 mostra a função de autocorrelação para a série da figura 1.1. Ela pode ser interpretada como sendo uma médida da

influência de um valor da variável sobre a mesma variável instantes após. Assim, para defasagens

influência de um valor da variável sobre a mesma variável instantes após. Assim, para defasagens pequenas espera-se que a influência seja ainda grande e para defasagens grandes haja pouca correlação entre medidas muito distantes entre si no tempo.

13.Análise de series de tempo

Rigorosamente esta secção deveria aparecer antes das secções sobre regressão e correlação, mas a ordem talvez seja mais didáctica. Os objectivos da análise de séries de tempo podem ser resumidos em :

(1)descrever séries históricas, através de algumas estatísticas e representações gráficas; (2) prever valores futuros; (3) monitorar a série para detectar mudanças de comportamento; (4) comparar duas séries para descobrir dependencias ou correlações.

14.1. Definições A tendência de uma série é dada pela média ou valor esperado em função do tempo:

Y(t) = n y i (t)

Estacionaridade - se a estrutura estatística da série não se altera por um deslocamento da origem dos tempos, a série se diz estacionária. Na prática significa que a série parece a mesma vista de qualquer ponto no tempo. Y = constante e r (y, t, u) = r (y, t+u).

Um exemplo de uma série estaccionária é o chamado ruido branco, que tem media y = o, desvio padrão finito e auto correlação nula para u = 0, quer dizer, cada valor não depende dos anteriores.

14.2. Gráficos de series de tempo Em geral as séres são discretas e é mais

14.2. Gráficos de series de tempo Em geral as séres são discretas e é mais conviniente ligar os pontos por rectas para tornar mais visível a variação.

Outra escolha que pode afectar a interpretação de um gráfico é parâmetro de aspecto. Se a ordenada for exagerada em relação à abcissa, vê-se melhor a diferença entre alturas de picos sucessivos, enquanto que uma ordenada comprimida mostra as assimetrias dos picos individuais.

entre alturas de picos sucessivos, enquanto que uma ordenada comprimida mostra as assimetrias dos picos individuais.

14.3. Alisamento A figura abaixo (2.3) mostra observações representações por pontos distintos e a linha

14.3. Alisamento A figura abaixo (2.3) mostra observações representações por pontos distintos e a linha

14.3. Alisamento

A figura abaixo (2.3) mostra observações representações por pontos distintos e a linha

continua superposta é construída conectando pontos correspondentes a médias móvies de 3 pontos.

s t = y t-1 + y t + Y t+1 )/ 3

O gráfico descreve variações, possivelmente sazonais, de onde foram retiradas variações

aleatórios de período menor ( 1 e 2 meses) que estão mostrados nos resíduos do gráfico b:

r t = y t

- s t .

Este exemplo leva à conceituação de medias movies, centradas no ponto de interesse:

S t = p j = -p W j Y t+j

t = p + 1, …., n-p

W j são pesos, tipicamente positivos, W j = W- j com soma igual à

W j são pesos, tipicamente positivos, W j = W- j com soma igual à

W j são pesos, tipicamente positivos, W j = W- j com soma igual à unidade. Na prática o é muito menor que n, o tamanho da amostra.

Essas médias móveis actuam com filtros”passa-baixo”, que eliminam variações com frequências menores que 1/2p. Por exemplo, se se quiser eliminar a sazonalidade, que tem período de 12 meses e é óbvia na maioria dos casos, pode-se usar uma média de 13 pontos em que :

W 6 = W-6 = 11/24 e W j = w- j = 1/12 para

W 6 = W-6 = 11/24 e W j = w- j = 1/12 para j = 1, 2,…5, a figura 2.4 mostra que após retirada

à sazonalidade, é possível distinguir uma tendência impossível de se perceber na série não

alisada. Também se faz alisamento através de polinómios, como foi feito no item 10 anterior. Uma regressão muito usada é a regressão spline.

Em geral, a função alisada, que estima a tendência é tal que Y(t) = u(t) + u(t) onde u(t) é uma função aleatória.

A prática mais comum é escolher o tipo de função u(t), que contêm parámetros a serem escolhidos de modo a minimizar a soma dos quadrados dos desvios, como no caso de figura 2.5 abixo.

Entretanto quanto mais detalhes forem incluídos, mais grosseira resulta a curva, com protuberância de raizes de raios de curvatura muito pequenos. Uma medida sensível da “rudeza” de curva é a Segunda derrivada u’’ (t), uma vez que a derrivada local de u(t) varia rapidamente se a curva é muito oscilante. Isso sugere que, para escolher u(t) deve-se minimizar a função:

Q(α) = ∑(yi – u(t1))2 + α∫-+ u’’(t) 2 dt onde α representa o compromisso escolhido entre uma função bem ajustada (soma dos quadrados dos desvios mínima) e uma função mais lisa.

Para um dado α a função u (t) que mínimiza Q(α) é uma spline cúbica que tem as seguintes propriedades:

1. u (t) tem a primeira derrivada continua em todos os pontos;

2. u (t) é linear para t < t 1 e t > t n , isto é, nas extremidades da amostra, para efeito de

continuidade;

3. u (t) é uma função cúbica de t entre cada par sucessivo de t i ’s.

U (t) é relacionada a uma media móvel em que, para pontos igualmente espaçados, a

U (t) é relacionada a uma media móvel em que, para pontos igualmente espaçados, a função peso é:

W ij = h -1 K{(i j)/h}, onde h = α 0.25 e a função kernel k {. } é definida por K (u) = 0.5 exp (-|u|/2 sen (0.25 + |u| / √2) mostrada na figura 2.6.

As figuras 2.7 mostram o efeito da aplicação do método para a mesma série da figura 2.5, para diferentes valores de α.

14. Período-grama ou análise de Fourier

O períodograma é uma descrição da série temporal como uma superposição de ondas senoidais de várias frequências. O valor prático deste método reside obviamente na observação de que muitas séries exibem flutuações ciclicas em valor mas com frequências que nem sempre são previsíveis antes que os dados sejam observados.

A expansão em séries de Fourier de uma série temporal pode ser escrita:

Y t =

Onde u t é um ruído branco, t varia de 1 a n, o número de valores da série, e w k = 2∏k/n a k = 2t y t cos(ω k t) / n

b k = 2t y t sen(ω k t) / n

k=1 m [a k cos(ω k t) + bk sen (ω k t)] + u t

O

períodograma é dado por: I(k) = (a k 2 + b k 2 ) / 4

A

intensidade de I(k) reflecte a contribuição da k-ésima compornente da série com frequência

f

= k/(n

∆t) ou

período T =

∆t /k, onde é o intervalo de tempo entre duas medidas

consecutivas das série.

As figures 2.16 mostram os períodogramas para as duas séries das figuras 2.4 vistas anteriormente no item 14.3. Note-se um pico muito intenso na 6 a componente. Como a amostra tem 72 meses, T = 72 * 1/6 = 12 meses, é exactamente o período sazonal.

EXERCÍCIOS 1. Dada a série climatologica de precipitação dos meses de Julho para a cidade

EXERCÍCIOS

1. Dada a série climatologica de precipitação dos meses de Julho para a cidade de

Inhambane:

a. Construa o gráfico de distribuição de frequências.

b. Construa o gráfico de frequências acumuladas.

c. Qual é a moda e a mediana.

d. Calcule a probabilidade de a precipitação do mês de Julho seja maior que 30.8

mm

Ano

Prec. (mm)

Ano

Prec. (mm)

1973

80.1

1988

11.1

1974

60.6

1989

52.8

1975

28.3

1990

2.2

1976

21.4

1991

6.7

1977

16.0

1992

4.9

1978

55.9

1993

131.1

1979

49.7

1994

60.8

1980

30.8

1995

26.5

1981

43.9

1996

32.5

1982

35.9

1997

63.9

1983

42.6

1998

10.3

1984

76.8

1999

48.2

1985

33.2

2000

35.4

1986

11.6

2001

46.4

1987

31.4

2002

68.0

2. Dada a série climatologica de Temperaturas (°C) para uma dada estação. Verfique se a

2. Dada a série climatologica de Temperaturas (°C) para uma dada estação. Verfique se a série é homogenia o não.

Ano

T (°C)

Ano

T (°C)

1927

16.4

1942

19.4

1928

19.9

1943

20.4

1929

17.7

1944

22.4

1930

17.7

1945

18.4

1931

15.9

1946

18.7

1932

19.8

1947

22.0

1933

19.4

1948

18.9

1934

16.9

1949

20.7

1935

17.1

1950

19.7

1936

17.5

1951

19.5

1937

18.5

1952

20.3

1938

17.6

1953

19.8

1939

18.1

1954

18.3

1940

17.4

1955

19.3

1941

17.3

1956

17.5