Guia para Usar Programas R y Clima

Gua del usuario de climatol
Un paquete de R para la homogeneizacin de series climatolgicas

(y funciones para dibujar rosas de viento y diagramas de Walter y Lieth)
Version 2.1, distribuida bajo la licencia GPL (versin 2 o posterior)
Por Jos A. Guijarro (http://www.climatol.eu/)

Agencia Estatal de Meteorologa, Delegacin T. en las Islas Baleares, Espaa
Versin de esta gua:
1.1 (Octubre de 2012)
La Gua del usuario de climatol, por Jos A. Guijarro, est sujeta a la licencia Creative
Commons Attribution-NoDerivatives 3.0 Unported. Excepciones: Se permiten las traducciones
a cualquier otro idioma aparte del espaol y el ingls.
II
Prembulo
El paquete de R Climatol est mayoritariamente destinado al problema de la homogeneizacin de series climatolgicas, es decir, a eliminar las perturbaciones producidas por cambios
en las condiciones de observacin o en el entorno de la estacin, para que las series reflejen
slamente (hasta donde sea posible) las variaciones climticas.
La documentacin estndar del paquete se cie a las normas de R, y provee descripciones de
las funciones y de sus parmetros, de modo que los usuarios pueden acudir a ella cuando lo
necesiten. Esta gua, por otra parte, se ha escrito como un complemento, y est ms enfocada a
explicar la metodologa subyacente en los algoritmos del paquete, cmo llamar a sus funciones,
y cmo interpretar y usar sus resultados.
La gua est estructurada en dos partes: una introduccin rpida (en unas pocas pginas siguientes) para aquellos usuarios que deseen empezar a homogeneizar sus datos cuanto antes, y una
gua ampliada, en la que se tratan con ms detalle los diferentes aspectos del paquete.
La mayor parte de los ejemplos de esta gua se pueden reproducir con los ficheros del archivo
climatol-dat.zip, que se puede descargar de http://webs.ono.com/climatol/climatol-dat.zip,
y que contiene series reales de un rea mediterrnea, si bien los nombres y coordenadas de las
estaciones son ficticios.
Agradecimientos
Este paquete se ha beneficiado enormemente de las fructiferas discusiones mantenidas en el
marco de la Accin COST ES0601 (2006-2011), titulada Avances en los mtodos de homogeneizacin de las series climticas: una aproximacin integrada (HOME). Mi agradecimiento a
todos los participantes, as como a la Fundacin Europea de la Ciencia, por promover y financiar
estos enriquecedores encuentros. Tambin debo agradecer a la Agencia Estatal de Meteorologa
de Espaa (AEMET) por su continuado apoyo a mi participacin en esta Accin.
III
Introduccin rpida
Lo primero que hemos de hacer es preparar los datos de entrada en dos ficheros de texto con
los formatos adecuados. En uno de ellos hay que relacionar las coordenadas y nombres de las
estaciones, incluyendo una lnea de la forma
X Y Z CDIGO NOMBRE
para cada estacin, donde las coordenadas X e Y pueden estar en km (procedentes, por ejemplo,
de una proyeccin UTM) o en coordenadas geogrficas (longitud y latitud, en este orden), pero
no en forma de grados, minutos y segundos, sino en grados con decimales. Los otros parmetros son la altitud Z en m, un CDIGO identificativo de la estacin, y su NOMBRE completo, que
debe estar encerrado entre comillas si est formado por ms de una palabra. (Es aconsejable
poner todos los nombres entre comillas para evitar errores). El nombre de este fichero debe
ser VAR_AINI-AFIN.est, donde VAR ser una abreviatura de la variable climtica que estemos
analizando, y AINI y AFIN los aos inicial y final del periodo estudiado.
Los datos climticos de esta variable irn en otro fichero, organizados por bloques, estacin por
estacin, en el mismo orden en que aparecen en el fichero de estaciones. El nombre de ambos
ficheros ser el mismo, distinguindose nicamente por su extensin, que en el caso del fichero
de datos ser dat.
Ejemplo: Supongamos que se quieren homogeneizar los datos mensuales medios de las temperaturas mnimas diarias de 1956 a 2005, y que se escoge Tmin como la abreviatura para esta
variable. El fichero de estaciones sera Tmin_1956-2005.est, y podra comenzar, como en los
datos de ejemplo, por:
27.0 53.9
31.8 26.5
49.2 30.0
43.4 29.6
... (etc)
456
123
154
156
S03
S08
S11
S13
"La Perla"
"El Palmeral"
"Miraflores"
"Torremar"
Y el fichero de datos debera llamarse Tmin_1956-2005.dat, y sus primeras lneas podran ser:
NA NA NA NA NA NA NA NA NA NA NA NA
-0.4 1.8 5.5 6.5 15.1 17.4 16.7 16.4 12.2 6.0 2.6 2.3
1.5 4.0 6.5 8.7 12.4 12.1 20.3 NA 14.7 11.0 3.2 0.5
... (etc)
Estos seran los datos de la primera estacin de nuestra red de observacin1 , en orden cronolgico: enero a diciembre de 1956, lo mismo para 1957 en la segunda lnea, 1958 en la tercera, etc.
En este ejemplo faltan los datos de todo 1956 y de agosto de 1958, que se han substituido por
NA (Not Available), que es la representacin estndar en R de los datos ausentes (aunque pueden
usarse otras). Despus de relacionar todos los datos de la primera estacin, se contina con los
1 En
realidad, este no es el comienzo de nuestro fichero de ejemplo, cuyas tres primeras lneas tienen todos los
datos completos. Aqu hemos introducido estas otras para ilustrar cmo proceder cuando nos falten datos.
IV
de la segunda, y as sucesivamente hasta completar los datos de la ltima estacin. Es importante tener en cuenta que todas las estaciones deben proveer datos para todos y cada uno de los
trminos (meses, estaciones del ao, o la unidad temporal que estemos tratando) del periodo de
estudio (1956-2005 en nuestro ejemplo), y de ah la necesidad de incluir cdigos para rellenar
cualquier dato ausente. Por comodidad, hemos puesto 12 valores (un ao completo) en cada
lnea del fichero, pero los datos se pueden disponer de cualquier otro modo, en un formato libre,
separados por espacios en blanco, puesto que se van a leer secuencialmente. (Nota importante:
ningn trmino temporal (mes, etc) debe faltar simultneamente en todas las estaciones, puesto
que el proceso de relleno de datos ausentes no podra realizarse completamente y el programa
acabara dando un error).
Una vez preparados los ficheros de datos en nuestro directorio de trabajo, todo lo que tenemos
que hacer para proceder a su homogeneizacin es arrancar R desde ese mismo directorio, cargar
las funciones de homogeneizacin con la orden
library(climatol)
Si se instal este paquete desde R, o con
source("depurdat.R")
si se dispone de este fichero2 en el directorio de trabajo, y lanzar la orden de homogeneizacin
automtica, que para nuestro ejemplo sera:
homogen("Tmin", 1956, 2005)
Esta orden acepta otros parmetros opcionales, de los cuales cabe destacar los siguientes:
nm Nmero de datos por ao en cada estacin (12 por defecto: datos mensuales. Poner nm=1 si
analizamos datos anuales, nm=1 para datos estacionales, etc).
deg Ponerlo igual a TRUE (verdadero) si las coordenadas geogrficas estn en grados, o dejarlo
en su valor por defecto FALSE si estn en km (la unidad de distancia usada internamente
por el paquete).
std Tipo de normalizacin. Por defecto, los datos se estandarizarn restndoles su media y
dividiendo el resultado por su desviacin tpica, pero si la variable tiene un cero natural
(como la precipitacin), puede ser preferible usar std=2 (los datos slo se dividirn por
su media). Otra opcin es std=1, para que a los datos slamente se les reste su media).
rtrans Transformacin raz a aplicar a los datos: 2 para raz cuadrada, 3 para cbica, etc
(pueden usarse nmeros no enteros). til si la distribucin de la variable se aleja de la
normal, como sucede con la velocidad del viento, o con la precipitacin de regiones ridas).
na.strings Cadena de caracteres usada para los datos ausentes. Por defecto R usa NA,
pero se puede especificar cualquier otra, como por ejemplo: na.strings=-999.0.
Otro ejemplo para homogeneizar precipitaciones estacionales (cuatro datos por ao) para el
periodo 1961-2005, con las coordenadas de las estaciones expresadas en grados geogrficos, y
2 El
fichero depurdat.R contiene las funciones de homogeneizacin del paquete climatol.
aplicando una transformacin raz cbica a los datos, ser (no se proveen ficheros de datos para
este ejemplo):
homogen("SsPrp", 1961, 2005, nm=4, deg=TRUE, rtrans=3)
La orden del primer ejemplo generara los siguientes ficheros (en el directorio de trabajo):
Tmin_1956-2005.esh Fichero de estaciones despus de la homogeneizacin. Tiene la
misma estructura que el fichero de entrada Tmin_1956-2005.est, pero con columnas
adicionales (ver la gua ampliada) y, probablemente, nuevas lneas (cuando el proceso
detecta un salto brusco en la media, la serie se corta, creando una nueva con las mismas coordenadas y aadiendo un sufijo numrico incremental al nombre y cdigo de la
estacin).
Tmin_1956-2005.dah Datos homogeneizados, con todos los datos ausentes rellenados,
anlogo al fichero de entrada Tmin_1956-2005.dat.
Tmin_1956-2005.txt Fichero de bitcora del proceso, con todos los mensajes que han
ido saliendo por pantalla (incluyendo los resmenes finales).
Tmin_1956-2005.pdf Fichero con una (potencialmente larga) coleccin de grficos de
diagnstico generados durante el proceso.
Los archivos de grficos y de bitcora pueden sugerir repetir el proceso con diferentes parmetros (ver la gua ampliada para ms informacin), mientras que los ficheros con los datos
homogeneizados se pueden tratar con la funcin dahstat. Por ejemplo, si queremos una relacin de los valores medios para el periodo 1971-2000 de las temperaturas que acabamos de
homogeneizar, podemos obtenerla en un archivo llamado Tmin_1971-2000.med con la orden:
dahstat("Tmin", 1956, 2005, 1971, 2000)
Como puede observarse, los parmetros son el nombre de la variable, el primer y el ltimo ao
del periodo de estudio, y el primer y ltimo ao del periodo para el que queremos calcular las
medias (estos pueden omitirse si queremos las medias de todo el periodo de estudio). Otros
parmetros de esta funcin son:
out Tipo de salida (el fichero tendr la extensin correspondiente):
"med" para medias de los datos (la salida por defecto).
"mdn" para medianas.
"max" para valores mximos.
"min" para valores mnimos.
"std" para desviaciones tpicas.
"q" para cuantiles (ver el parmetro prob).
"tnd" para tendencias.
Con cualquier otra opcin no reconocida la funcin se limitar a leer los datos homogeneizados, facilitando as al usuario su posterior anlisis.
vala Valor anual calculado en la tabla de salida. Puede ponerse 0 (para no calcular ningn
valor anual), 1 (para la suma de los valores mensuales of de la periodicidad subanual que
estemos manejando), 2 (para la media, que es la opcin por defecto), 3 (para el mximo)
o 4 (para el mnimo).
VI
prob Probabilidad para el clculo de los cuantiles (si se usa la opcin out="q" . El valor por
defecto es 0.5, equivalente al clculo de la mediana, como con la opcin out="mdn" ).
eshcol Columnas del fichero de estaciones homogeneizadas "*.esh" a incluir en el fichero
de salida. El valor por defecto es 4, indicando que slo el cdigo de la estacin (la cuarta
columna) preceder a los valores estadsticos de la tabla.
Los ficheros de salida tendrn el mismo nombre base que los de entrada, pero con una extensin
igual a la opcin out escogida, con la excepcin de los cuantiles, cuya extensin ser qPP, donde
PP se substituir por la probabilidad seleccionada con la opcin prob (pero en %).
Por consiguiente, si queremos obtener los valores normales mensuales (y su media anual) de las
temperaturas mnimas previamente homogeneizadas, podemos dar la siguiente orden:
dahstat("Tmin", 1956, 2005, 1971, 2000)
Pero si deseamos calcular las tendencias para todo el periodo de estudio 1956-2005, e incluir las
coordenadas de las estaciones (columnas 1 and 2 del fichero de salida Tmin_1956-2005.esh
tras los cdigos de las estaciones, deberamos dar:
dahstat("Tmin", 1956, 2005, out="tnd", vala=1, eshcol=c(4,1,2)) 3
y de este modo obtendramos la lista de las tendencias en un fichero de texto denominado
Tmin_1956-2005.tnd que, al incluir las coordenadas de las estaciones, podra utilizarse para
cartografiar las tendencias (tanto desde R como importando el fichero con un SIG).
(Fin de la introduccin rpida)
3 Ntese
el uso de la funcin de concatenacin de R, c, para designar un vector numrico.
VII
Gua ampliada
ndice
1. Introduccin
2. Metodologa
2.1. Regresin tipo II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Estimacin de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Deteccin y correcin de datos anmalos y saltos bruscos en la media . . . . .
3. Aplicacin
3.1. Preparacin de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Homogeneizacin de las series . . . . . . . . . . . . . . . . . . . . . . . . . .
4. Salidas
4.1. El fichero *.txt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Archivo *.pdf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
4.3. Ficheros *.esh y *.dah . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
5. Discusin y sugerencias
21
6. Explotacin de las series homogeneizadas
23
7. Y si los datos son diarios o sub-diarios?
25
8. Otras funciones de climatol
28
8.1. Rosas de los vientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
8.2. Climogramas de Walter y Lieth . . . . . . . . . . . . . . . . . . . . . . . . . .
29
9. Bibliografa
31
10. Anexo: Valores umbrales para las pruebas SNHT
32
1.
Introduccin
Como el lector debe saber, las estaciones meteorolgicas no slo registran las variaciones climticas locales, sino que sus medidas tambin estn afectadas por cambios en la instrumentacin,
mtodos de observacin, la ubicacin del observatorio, o su ambiente circundante (ej.: crecimiento urbano o cambios en los usos del suelo). Para filtrar las series de esas perturbaciones
no deseadas es preciso aplicar un procedimiento estadstico, denominado homogeneizacin, de
modo que al final sus datos reflejen nicamente las variaciones del clima.
Esta problemtica se conoce desde hace muchos decenios. Algunos mtodos antiguos se basan
en pruebas estadsticas para comprobar la no estacionariedad de una nica serie climatolgica.
Estos mtodos absolutos deben evitarse, puesto que presuponen una estabilidad climtica que
se ha visto que no es realista. La alternativa es usar mtodos de homogeneidad relativa, en
los que las pruebas de estacionariedad se aplican a series de razones o diferencias entre la
estacin problema y una o ms series bien correlacionadas de estaciones vecinas. Peterson et
al. (1998) y Aguilar et al. (2003) pasan revista a las diferentes aproximaciones desarrolladas por
los climatlogos hasta ahora, mientras que en los prximos apartados explicaremos la estrategi
seguida en este paquete.
2.
Metodologa
2.1.
Regresin tipo II
Como en muchos otros mtodos, las pruebas de homogeneidad se aplican aqu a series de diferencias entre la estacin problema y una serie de referencia construida mediante una media
(ponderada o no) de las series de las estaciones de las proximidades. Pero, a diferencia de la
mayora de ellos, la seleccin de estas estaciones se basa nicamente en la proximidad, y no en
la correlacin, para permitir el uso de las estaciones ms prximas incluso cuando el periodo
comn de observacin es demasiado pequeo (o nulo) para poder calcular correlaciones fiables.
Por tanto, mientras que el uso de las correlaciones se suele aplicar a una seleccin de series
largas, nosotros podemos emplear la mayor parte de la informacin de nuestra red climatolgica. Esto implica, sin embargo, que la regin estudiada debe ser climticamente homognea4 ,
puesto que la presencia de abruptas fronteras geogrficas pueden conducir a usar estaciones
prximas pero pobremente correlacionadas para calcular las series de referencia. En este caso,
la regi debe subdividirse, para aplicar una homogeneizacin independiente en cada una de las
subregiones.
Este procedimiento se inspira en el mtodo usado por Paulhus y Kohler (1952) para rellenar
datos ausentes de precipitacin diaria, que consiste en la interpolacin espacial de precipitaciones relativas (divididas por la precipitacin normal) de estaciones vecinas. Este mtodo de
las proporciones se extiende en el paquete climatol con opciones para usar diferencias y estandarizaciones propiamente dichas para normalizar los datos. Las proporciones respecto a los
valores normales climatolgicos son apropiados para la precipitacin y otras variables que no
pueden tener valores negativos y que suelen tener una distribucin de probabilidad en forma de
4 O,
al menos, que las variaciones climticas sean suaves.
2
L, mientras que las diferencias (o las estandarizaciones, si estas diferencias se dividen por las
desviaciones tpicas) son ms apropiadas para la temperatura y otras variables que se distribuyen
normalmente (o se aproximan a la normal).
2.5
2.5
Desde un punto de vista estadstico, esto equivale a aplicar una regresin lineal tipo II, en
lugar de el tipo I habitual. ste se suele ajustar por un procedimiento de mnimos cuadrados,
que minimiza las desviaciones entre los puntos (observaciones) y la recta de regresin en la
direccin del eje Y (verticalmente, como en la figura 1-izquierda). Se supone con ello que la
variable independiente X est controlada por el investigador o medida con errores despreciables
respecto a los de la variable dependiente (Sokal y Rohlf, 1969). Pero este no es el caso cuando
se ajustan lneas de regresin a pares de series de una red climatolgica, donde los errores son
a priory similares en todas las estaciones. En este caso, las desviaciones a minimizar deberan
ser las perpendiculares a la recta de regresin, como en la figura 1-derecha.
2.0
2.0
1.5
1.5
1.0
1.0
0.5
0.0
0.5
0.5
1.0
1.0
0.0
0.5
Figura 1: Deviaciones minimizadas por mnimos cuadrados (regresin tipo I, izquierda) y regresin ortogonal (regresin tipo II, derecha).
Aunque existe una expresin analtica para el ajuste de esta lnea de regresin ortogonal tipo
II (Daget, 1979), hay algunas alternativas que proporcionan una buena aproximacin. La ms
sencilla es la denominada eje mayor reducido que, llamando x e y a las versiones estandarizadas
de las variables (x = (X mX )/sX y y = (Y mY )/sY , donde m y s representan la media y la
desviacin tpica respectivamente), tiene la forma:
y = x
(O bien y = x cuando la relacin es inversa, que no es el caso cuando tratamos con la misma
variable en una regin climticamente homognea).
Una caracterstica de esta regresin tipo II es que la varianza de la variable estimada es la misma que la de la original, puesto que esta lnea no tiende a la horizontal cuando el coeficiente de
determinacion (r2 , igual a la fraccin de varianza explicada) tiende a cero. Se puede argumentar
que, cuando esta fraccin es menor que la unidad, la varianza extra proporcionada por la regresin de tipo II respecto a la de mnimos cuadrados (tipo I) es espuria, pero cabe esperar altos
valores de r2 si la red de observacin es suficientemente densa, y por otra parte evitaremos el
3
problema que supone una reduccin de la varianza cuando el objetivo final de nuestro estudio
sea establecer la variabilidad de las series. Adems, esta metodologa permite corregir no slo
los cambios en la media de las series, sino tambin posibles cambios en su varianza 5 .
2.2.
Estimacin de los datos
1.0
Una vez normalizados los datos originales, se procede a estimar cada trmino de cada serie
como una media ponderada de un determinado nmero de los datos ms prximos disponibles
en cada caso. Los pesos a aplicar a los datos de referencia pueden ser todos iguales (media
simple) o calcularse como una funcin inversa de la distancia d entre los sitios de observacin.
La funcin escogida para ello se formul originalmente como 1/(1 + d 2 /a), donde el parmetro
a permite al investigador modular el peso relativo de las estaciones ms cercanas respecto de
las ms alejadas, pero es ms conveniente la expresin 1/(1 + d 2 /h2 ), puesto que de este modo
el nuevo parmetro h resulta ser la distancia a la que el peso se reduce a la mitad del que tendra
una estacin situada en la misma posicin que la de los datos a estimar6 . En la figura 2 puede
verse esta funcin dibujada para diferentes valores de h. (Este parmetro se llama wd, por weight
distance, en la lista de argumentos de la funcin de homogeneizacin de este paquete).
h (km)
100
200
400
0.0
0.2
0.4
Peso
0.6
0.8
1
20
50
100
200
300
400
Distancia (km)
Figura 2: Formas adoptadas por la funcin de peso segn el semi-peso h (parmetro wd de la

funcin homogen).
5 Aunque
6 Gracias
los cambios en la varianza no se buscan explcitamente en este paquete.

a Victor Venema por esta sugerencia.
4
Pero el primer problema que debemos afrontar es que, a menos que la series estn completas, no
podemos calcular sus medias y desviaciones tpicas par todo el periodo de estudio. De modo que
debemos comenzar por calcular estos parmetros nicamente a partir de los datos disponibles,
usar las series estimadas (tras deshacer la normalizacin de los datos) para rellenar las lagunas
de datos, recalcular las medias y desviaciones tpicas, renormalizar los datos, y obtener nuevas
estimas de las series. Este proceso se repite hasta que el cambio mximo de cualquier dato
respecto de la iteracin anterior sea menor que un determinado umbral (0.005 unidades por
defecto).
2.3.
Deteccin y correcin de datos anmalos y saltos bruscos en la media
Despus de haber estimado todos los datos, para cada serie original podemos calcular las series
de anomalas (diferencias entre los datos observados y los estimados), y aplicar sobre ellas
pruebas para detectar:
1. Datos anmalos: La serie de anomalas se estandariza, y las anomalas mayores de 5 (por
defecto) desviaciones tpicas se borran de los datos originales.
2. Saltos en la media: A la serie de anomalas se le aplica la prueba SNHT Standard Normal
Homogeneity Test, SNHT, por Alexandersson, 1986) en dos etapas:
a) Sobre ventanas de 120 trminos que se van moviendo en saltos de 60 trminos (valores por defecto).
b) Sobre la serie completa.
Los mximos valores de SNHT (llamados tV en este paquete) y sus posiciones en cada serie se
guardan en memoria, y las series con los valores ms altos, si superan el umbral establecido,
se cortan en la posicin en que se encontr ese mximo valor de inhomogeneidad, de forma
que a partir de esa posicin se transfieren todos los valores a una nueva serie (con las mismas
coordenadas) y se borran de la original.
Lo ideal sera repetir todo el proceso despus de cortar la serie ms inhomognea, puesto que
esta inhomogeneidad puede haber influido sobre la valoracin de la homogeneidad de las estaciones vecinas. Pero esto hara el proceso muy largo si estamos tratado con un elevado nmero
de estaciones con muchas inhomogeneidades, de modo que se proporciona un factor de tolerancia para permitir el corte de varias estaciones en cada pasada.
Una vez que todas las inhomogeneidades superiores al umbral se han cortado con la prueba
SNHT aplicada sobre ventanas solapadas, se repite todo el proceso aplicndo esta prueba sobre
las series completas, con lo que se pueden generar mas cortes en las series.
La prueba sobre ventanas mviles se ha implementado para evitar la existencia de mltiples
saltos en la media pueda subestimar los valores del SNHT, mientras que su aplicacin a las
series completas es ms sensible y permite detectar saltos ms pequeos que en la prueba sobre
ventanas (con menores tamaos muestrales). De todos modos, el valor por defecto del umbral
fijado para la prueba sobre las series completas se ha puesto ms alto que en la prueba sobre
ventanas, para evitar que se corten series debido a la presencia de tendencias locales y no de
5
saltos en la media (aunque si las tendencias locales son lo suficientemente fuertes se detectarn
y tratarn como si fueran saltos).
Despus de haber eliminado todas las inhomogeneidades superiores a los umbrales establecidos,
se realiza una nueva pasada dedicada nicamente a recalcular todos los datos ausentes (incluyendo los eliminados en la deteccin de saltos y datos anmalos). Esto se aplica a todas las
series, tanto si son originales (series no cortadas, o sus primeros fragmentos en caso contrario)
como si se trata de las nuevas series creadas tras los cortes efectuados. En este caso, la reconstruccin de las series se efecta nicamente con los datos de los otros fragmentos, cualquiera
que sea el nmero de datos de referencia fijado. (Salvo cuando no existan datos originales, en
cuyo caso la estima se realiza segn el mtodo general).
3.
3.1.
Aplicacin
Preparacin de los datos
Las coordenadas de las estaciones y los datos climatolgicos deben suministrarse como se explica en la introduccin rpida para que la funcin de homogeneizacin pueda leerlos correctamente. Otra posibilidad es que el usuario los lea de ficheros estructurados de diferente manera
mediante sus propios procedimientos, pudiendo aprovechar las funciones de R para acceder a
bases de datos relacionales. La nica precaucin es que los datos deben alojarse en la memoria
de R en estos dos objetos:
dat Matriz numrica que contiene los datos, de dimensiones nd, ne (donde nd y ne representan el nmero de datos por estacin y el nmero de estaciones, respectivamente). Los
datos ausentes deben especificarse como NA (el estndar de R).
est.c Tabla de datos con cinco columnas X Y Z Cdigo Nombre, conteniendo las coordenadas (X e Y pueden expresarse en in grados o en km, y Z en m), cdigos y nombres de las
estaciones. Estas lneas deben disponerse en el mismo orden en que aparecen los datos de
cada estacin en el objeto dat.
3.2.
Homogeneizacin de las series
La funcin de homogeneizacin de este paquete se llama homogen, y al llamarla deben suminstrarse, al menos, estos tres parmetros:
varcli Acrnimo del nombre de la variable climtica tratada.
anyi Ao inicial del periodo de estudio.
anyf Ao final del periodo de estudio.
Estos tres parmetros no tienen asignados valores por defecto, y la funcin los usar para determinar el nombre base de los ficheros de entrada y salida, como se explica en la introduccin
rpida. Los dems parmetros (opcionales) que acepta la funcin son los siguientes:
6
nm Nmero de datos por ao en cada estacin (12 por defecto: datos mensuales. Poner nm=1
para analizar datos anuales, nm=4 para los estacionales, etc).
nref Nmero mximo de datos de referencia a emplear para las estimas de los datos. Como se
explica en el apartado de la metodologa, todos los datos se estiman como si no existieran
(para calcular las anomalas), como una media ponderada de los datos ms prximos7 .
Este parmetro fija el nmero mximo de datos a usar en caso de que hubiera muchos
disponibles. (10 por defecto).
dz.max Umbral de tolerancia para los datos anmalos. Por defecto, las anomalas superiores a 5 desviaciones tpicas (de las propias series de anomalas) sern rechazadas (valor
conservador).
wd Distancia (en km) a la que los datos pesarn la mitad que los de una estacin localizada
en el mismo sitio de la serie a estimar. El valor por defecto es 0 para las dos primeras
fases (lo que indica que todos los datos tendrn el mismo peso), y 100 para la ltima fase
de clculo final de todos los datos ausentes. Se puede modificar suministrando un vector
de tres valores, como wd=c(0, 200, 50). Cualquier valor adicional ser ignorado, y si
el vector tuviera menos de tres elementos se repetir el ltimo valor las veces que sea
necesario.
tVt Valor umbral para la prueba SNHT sobre ventanas escalonadas (25 por defecto).
tVf Factor de tolerancia para poder fragmentar varias series en una misma pasada. Por defecto
vale 0.02, lo que permite un 2 % de tolerancia en cada dato de referencia. (Ej.: Si el
mximo valor de la prueba SNHT en una serie vale 30 y se han usado 10 referencias
para el clculo de las anomalas, la serie se cortar si el mximo valor de cualquiera de
las series de referencia es menor que 30*(1+0.02*10)=36. (Poner tVf=0 para inhabilitar
la fragmentacin si cualquiera de las referencias ya ha sido fragmentada en la misma
pasada).
swa Tamao del desfase a aplicar a las ventanas para la aplicacin de la prueba SNHT. El
valor por defecto es 60, lo que significa que la prueba se aplicar a los primeros 2*60
trminos disponibles, y luego esta ventana de 120 trminos se desplazar 60 trminos
hacia adelante para repetir la prueba, y as sucesivamente hasta alcanzar el final de la
serie. Este valor por defecto resulta adecuado para valores mensuales, pero es demasiado
grande para los anuales, y posiblemente demasiado pequeo para datos diarios.
snhtt Valor umbral para la prueba SNHT aplicada a las series completas. Por defecto tiene
un valor de 50 (bastante conservador), y puede cambiarse a 0 para inhabilitar esta prueba.
mxdif Mxima diferencia de datos en iteraciones consecutivas. El clculo iterativo de las
medias (y, opcionalmente, las desviaciones tpicas) de las series se detendr cuando la
mxima diferencia de cualquier datos respecto a su valor en la iteracin anterior sea como
mximo igual a este valor, fijado por defecto en 0.05.
7 Ntese
que hablamos de los datos ms prximos y no de las estaciones ms prximas, puesto que la disponibilidad de datos ir cambiando probablemente a lo largo del periodo de estudio.
7
force Parmetro lgico para forzar la fragmentacin de las series incluso cuando slo haya
una referencia disponible. Por defecto vale FALSE, evitando las fragmentaciones con una
sola referencia.
a Constante a aadir a los datos tras leerlos del fichero de entrada. En combinacin con el siguiente parmetro b, permite aplicar una transformacin lineal a los datos si, por ejemplo,
los datos originales vienen expresados en unidades diferentes a las deseadas. (Por defecto
vale 0).
b Factor a aplicar a los datos. (1 por defecto).
wz Factor a aplicar a las altitudes de la estacin antes de calcular la matriz de distancias eucldeas. Por defecto vale 0.001, para dar a la coordenada vertical (dada en m) el mismo
peso que a las horizontales (que se expresan en km).
deg Ponerlo como TRUE (verdadero) si las coordenadas geogrficas se dan en grados, o dejarlo en su valor por defecto FALSE (falso) si se dan en km (la unidad de distancia usada
internamente en este paquete).
rtrans Transformacin raz a aplicar a los datos: 2 para raz cuadrada, 3 para cbica, etc. (Se
permiten nmeros no enteros; til si la distribucin de frecuencia de la variable se aleja
de la normal, como suceden con la velocidad del viento, o la precipitacin de regiones
ridas).
std Tipo de normalizacin. Por defecto (3), los datos se estandarizarn restndoles la media y
dividindolos por la desviacin tpica, pero si la variable estudiada tiene un cero natural
(como sucede con la precipitacin), puede ser ms conveniente establecer std=2 (los
datos se normalizarn nicamente dividindolos por la media). Otra posible opcin es
std=1, para restarles la media nicamente.
ndec Nmero de decimales de los datos de salida homogeneizados. (1 por defecto).
mndat Mnimo nmero de datos para que un fragmento se convierta en una nueva serie. Si se
deja en su valor por defecto (0), se fijar en la mitad del valor del parmetro swa cuando se
aplique a datos diarios, y se igualar al valor de nm en caso contrario, con un valor mnimo
absoluto de 5. (Si se da un valor demasiado bajo, las medias y desviaciones tpicas de las
series no sern fiables, y lo mismo suceder con la reconstruccin de las series).
gp Parmetro grfico. Darle un valor:
0, para no generar ninguna salida grfica.
1, para obtener nicamente los grficos descriptivos de los datos de entrada. (No se
realizar ninguna homogeneizacin).
2, para obtener tambin los grficos de anomalas.
3 (valor por defecto), para obtener tambin los grficos de medias mviles anuales
y correcciones aplicadas.
4: como con 3, pero en lugar de medias mviles anuales se representarn sumas
mviles. (Preferible cuando trabajemos con datos de precipitacin).
8
leer Dar FALSE si no hay que leer los datos porque ya se ha hecho con otros procedimientos
de R.
na.strings Cadena de caracteres que representa los valores ausentes. Su valor por defecto
es el estndar de R, "NA" , pero se puede dar cualquier otra cadena, como por ejemplo
na.strings="-999.0" , o incluso un vector de cadenas, como en na.strings=c("-999",
"-999.0", "-999.0").
nclust Nmero mximo de estaciones para el anlisis de agrupamiento. Por defecto, si el
nmero de series de entrada es mayor que 100, los grficos iniciales descriptivos de los
datos de entrada se realizarn sobre una muestra aleatoria de nclust series.
maxite Nmero mximo de iteraciones para el clculo de las medias de las series. 50 por
defecto, para evitar un tiempo de proceso demasiado largo cuando la convergencia sea
muy lenta.
ini Fecha inicial. Vaca por defecto, si se fija (con formato AAAA-MM-DD) se supondr que
las series contienen datos diarios. (Ver el apartado 7 para una discusin sobre las limitaciones de la aplicacin de la funcin a este tipo de datos).
vmin Valor mnimo posible (lmite inferior) de la variable estudiada. Aunque no tiene ningn valor por defecto, se usar vmin=0 si se da el valor 2 al parmetro std. (Ej.: para
homogeneizar precipitaciones o velocidades del viento).
vmax Valor mximo posible (lmite superior) de la variable estudiada. Por defecto no se establece ninguno pero, por ejemplo, puede ser til usar vmax=100 y vmin=0 para datos
expresados como porcentajes, como la humedad o la insolacin relativas.
verb Verbosidad. TRUE por defecto, se puede establecer a FALSE para evitar la larga salida de
texto en la consola. (En cualquier caso, esa salida se grabar en el fichero de bitcora,
como se explica en el apartado siguiente).
Tal como se dice en la introduccin rpida, el ejemplo ms simple para efectuar una homogeneizacin de series con esta funcin es:
homogen("Tmin", 1956, 2005)
Este ejemplo se puede reproducir si se copian los correspondientes ficheros de datos y estaciones en el directorio de trabajo de R. Estos ficheros, llamados Tmin_1956-2005.dat y
Tmin_1956-2005.est, se pueden encontrar en el archivo comprimido climatol-dat.zip,
disponible en http://www.climatol.eu/
Las salidas de este ejemplo se explicarn a continuacin.
4.
Salidas
La orden de ejemplo homogen("Tmin", 1956, 2005) genera cuatro ficheros de salida, almacenados en el directorio de trabajo:
9
Tmin_1956-2005.txt Un fichero de texto que guarda la informacin del proceso tal como
sale por la consola.
Tmin_1956-2005.pdf Un fichero PDF con una coleccin de grficos de diagnstico.
Tmin_1956-2005.dah Un fichero de texto que contiene los datos homogeneizados (con los
datos ausentes rellenados). Tiene la misma estructura que el archivo de entrada Tmin_1956-2005.dat.
Tmin_1956-2005.esh Un fichero de texto con las coordenadas, nombres e informacin
adicional de las estaciones de los datos homogeneizados.
4.1.
El fichero *.txt
El fichero de bitcora, en texto claro, comienza por informar de todos los parmetros de la
llamada a la funcin (tanto explcitos como implcitos), para constancia en posibles revisiones
del proceso.
Luego sigue el proceso iterativo de relleno de datos ausentes, reflejando la mxima diferencia
de los datos al compararlos con la iteracin anterior, identificando la estacin responsable con
su cdigo entre parntesis. Si se han rechazado datos anmalos durante este proceso, aparecern
en lneas como la siguiente:
S63(7) 1966 7: 21.1 -> 14.3 (stan=6.42)
Estas lneas comienzan con el cdigo de la estacin y su nmero de orden (entre parntesis)
en el fichero de entrada. Luego siguen el ao y el mes del dato anmalo, su valor, y una flecha
sealndo por qu valor sera sustituido, indicando entre parntesis el valor de la anomala
estandarizada). Ntese que el valor indicado por la flecha es slo una estima aproximada, puesto
que el relleno de lagunas de datos definitivo se realizar en la ltima fase del proceso.
Despus del clculo iterativo de los promedios de las series (y sus desviaciones tpicas, si no se
ha cambiado el valor implcito std=3), se presentan los resultados de las pruebas de deteccin
de cambios bruscos en la media de las series. Para cada una de ellas, identificada por su nmero
de orden, se da el mximo valor tV de la prueba SNHT sobre ventanas escalonadas. Al terminar
de analizarlas todas, la (o las) que haya dado el valor ms alto ser fragmentada en dos partes,
y estos cortes quedarn registrados en lneas como, por ejemplo:
M56(10) se corta en 1976 7 (95.1)
Comienzan, al igual que en las lneas de datos anmalos rechazados, con el cdigo y el nmero
ordinal de la estacin, indicando a continuacin el ao y mes del primer dato despus del corte
y, entre parntesis, el valor del test (tV) en ese punto. Desde el trmino indicado hasta el final de
la serie, los datos se borran de la serie original y se trasladan a una nueva serie, con las mismas
coordenadas y aadiendo un nmero ordinal como sufijo del cdigo y el nombre originales de
la estacin.
Estos bloques de clculo iterativo de medias (con posible borrado de datos anmalos) y anlisis
de saltos se repite varias veces segn el proceso va pasando por los niveles 1 (pruebas SNHT
aplicadas sobre ventanas escalonadas) y 2 (aplicacin clsica de SNHT sobre las series completas), y despus tiene lugar un nivel 3 final para el clculo definitivo de los datos ausentes (esta
vez sin anlisis de saltos).
10
El archivo de bitcora termina con los resultados de los clculos finales de: The log file ends
with a set of final computations, including:
ACmx Mximas autocorrelaciones absolutas. La funcin de autocorrelacin de R, acm, se aplica a las series de anomalas, guardando el mximo valor absoluto obtenido para todos
los desfases en cada serie. Elevados valores de autocorrelacin pueden indicar falta de
aleatoriedad en las anomalas, debiendo revisarse las series correspondientes.
SNHT Valor de la prueba SNHT de las series finales de anomalas, para evaluar la inhomogeneidad remanente en las mismas.
RMSE Error tpico (raz cuadrada del error cuadrtico medio) de los datos estimados. Se calcula
a partir de las diferencias entre los datos observados y los calculados, cuando se dispone
de ambos. Sirve para evaluar los errores que pueden cometerse en el relleno de laguas,
y puede ayudar a seleccionar los mejores valores de algunos parmetros de la funcin
homogen cuando se prueban varios de ellos. Por otra parte, valores elevados del error
tpico pueden indicar tanto una mala calidad de la serie original como una singularidad
en la ubicacin de la estacin (que podra estar situada en un lugar con un microclima
especial).
PD Porcentaje de los datos originales. Cuando una serie se corta en dos o ms fragmentos, este
valor sirve para identificar cul de ellos retiene el mayor nmero de datos originales.
Primeramente se presentan los resmenes estadsticos de estas magnitudes, y despus se listan
los valores individuales para cada estacin (original o derivada del proceso de fragmentacin).
4.2.
Archivo *.pdf
Otra de las salidas es una serie potencialmente larga (segn el valor del parmetro gp) de grficos de diagnstico. Las primeras figuras describen los datos de entrada: nmero total de datos
disponibles en cada paso temporal (figura 3), diagramas de caja (figura 4), y un histograma de
todos los datos (figura 5). La inspeccin de estos grficos puede revelar la existencia de datos muy anmalos u otro tipo de problemas en los datos de entrada, que pueden aconsejar una
accin correctora antes de repetir el proceso de homogeneizacin.
La siguiente figura es un grfico de coeficientes de correlacin en funcin de la distancia (figura
6). Estos valores de correlacin se calculan a partir de las series diferenciadas, para evitar el posible impacto de las inhomogeneidades, y se usan todos los pares de observaciones disponibles.
Los coeficientes de correlacin iguales a 1 o -1 se eliminan previamente, puesto que probablemente se han originado a partir de slo dos pares de datos, pero hay que tener en cuenta que
algunos valores de correlacin pueden provenir de tres o pocos ms. Aunque estos coeficientes
no van a tener relevancia para el proceso de homogeneizacin, este grfico puede servir para
comprobar que no haya barreras geogrficas que provoquen cambios abruptos en las caractersticas climticas de la zona de estudio. En el ejemplo de la figura 6 se observan tanto valores
altos como bajos a distancias relativamente pequeas, indicando el impacto de las diferentes
condiciones topogrficas de los observatorios en las temperaturas mnimas durante las noches
despejadas y con viento en calma.
11
6
4
0
Nr. de datos
10
Nr. de datos de Tmin en todas las estaciones
1960
1970
1980
1990
2000
Aos
Figura 3: Nmero de datos disponibles.

A continuacin se realiza un anlisis de agrupamiento basado en la matriz de correlaciones, que
da lugar a dos nuevas figuras: un dendrograma, donde pueden verse las estaciones agrupadas
por la similaridad de las variaciones de sus datos, y un mapa de la ubicacin de las mismas,
identificadas por su nmero de orden, y con un color distinto segn el grupo al que pertenecen.
El objeto de este anlisis es proveer una primera aproximacin a una clasificacin climtica de
las estaciones, aunque el nmero de grupos, escogido automticamente por la lnea de trazos
roja del dendrograma, es probable que no sea el ptimo. Si los grupos son muy diferentes (estn
conectados por elevadas distancias en el dendrograma) y su localizacin geogrfica muestra
reas claramente delimitadas, el rea de estudio puede incluir discontinuidades climticas, y
el investigador debe considerar la conveniencia de efectuar homogeneizaciones independientes
para cada subrea climtica.
12
Valores de Tmin (Ene)
2
8
Valores
10
Estaciones
Figura 4: Ejemplo de diagramas de caja de los datos.
300
200
100
0
Frecuencia
400
500
Histograma de todos los datos
10
10
15
Tmin
Figura 5: Histograma de todos los datos.
20
13
Correlograma de las primeras diferencias de las series
0.9
0.8
0.7
Coeficiente de correlacin
0.6
10
20
30
40
50
60
Distancia (km)
Figura 6: Grfico de correlacindistancia.
1
4
10
0.5
0.0
Disimilaridad
1.0
1.5
Dendrograma de las estaciones
Estaciones
Figura 7: Dendrograma construido a partir de la matriz de correlaciones.
14
Situacin de las estaciones de Tmin (2 grupos)
60
9
10
8
50
Y (km)
40
30
7
4
10
20
5
20
30
40
50
60
70
X (km)
Figura 8: Mapa de la situacin de las estaciones, coloreadas por grupos.

Tras los grficos descriptivos, encontramos los que describen el anlisis de las series de anomalas, como en la figura 9, donde las anomalas figuran dibujadas como trazos verticales de color
azul. Cuando el valor mximo de la prueba de saltos en la media supera el umbral establecido,
la posicin donde se va a cortar la serie se marca con una lnea vertical de trazos rojos, rotulada
en su parte superior con el valor de la prueba (redondeado por defecto). En la parte inferior del
grfico se dibuja en verde la distancia al dato ms prximo en cada paso temporal, en km (con
escala logartmica).
Todas las series cortadas se muestran en grficos similares, para permitir inspeccionar el proceso
de homogeneizacin de forma subjetiva. Los primeros cortes sern probablemente muy claros
(como en la figura 9), mientras que los ltimos podran ser discutibles, especialmente si el
umbral de la prueba, tVt, se fij en un valor relativamente bajo. En este caso puede resultar
aconsejable repetir el proceso con un umbral ms alto.
Despus de los grficos de anomalas de las series cortadas en la primera fase siguen unos
grficos resumen, que muestran los mximos valores de las pruebas de salto de las series remanentes (figura 10, con barras cuyo color vara de verde hacia rojo al aumentar su valor), y un
histograma de frecuencias de los valores de todas las series (figura 11). Ambas figuras muestran
la distribucin de los mximos valores de las pruebas de salto, lo que permite juzgar si los valores ms altos corresponden a series con destacadas inhomogeneidades o si ms bien se sitan
simplemente en la cola derecha de la distribucin de frecuencias de las pruebas de salto en la
media.
Este bloque de pruebas de salto en la media de las series de anomalas y cortes se repite en la
segunda fase, donde la prueba de SNHT se aplica a las series completas, seguido de los correspondientes grficos de barras e histograma de los mximos valores de la prueba en las series
resultantes. A continuacin aparecen otros dos grficos referidos al nmero de cortes sufrido
por las estaciones: un histograma del nmero de cortes por estacin (figura 12), y un grfico de
barras indicando el nmero de cortes por ao (figura 13). Una acumulacin de muchos cortes
15
en el mismo ao puede indicar un cambio en el instrumental o en el mtodo de observacin en
una parte significativa de la red8 .
Tmin at M56(10), Buena Vista
4
2
0
2
(km)
100
Anomalas estandarizadas (observaciones estimas)
95
10
1
min.d.
1960
1970
1980
1990
2000
Aos
Figura 9: Anlisis de las anomalas, sealando el punto de corte ms significativo.

8 Estos
cambios nunca deben aplicarse simultneamente a toda una red, puesto que no quedaran series de
observacin que sirvieran de referencia para juzgar el efecto de los mismos.
16
40
0
20
tV mximo
60
80
tV mximo por estaciones
10
15
20
25
Estaciones
Figura 10: Mximos valores de las pruebas de salto tras el proceso de fragmentacin. (Algunas
series no muestran ningn valor porque son demasiado cortas para poder aplicar la prueba en
ventanas escalonadas).
1.5
1.0
0.5
0.0
Frecuencia
2.0
2.5
3.0
Histograma de los SNHT mximos
10
15
SNHT
20
25
30
17
Figura 11: Histograma de los mximos valores de las pruebas de salto residuales.
2.0
1.5
1.0
0.0
0.5
Nmero de estaciones
2.5
3.0
Nmero de cortes por estacin
Nmero de cortes
Figura 12: Histograma del nmero de cortes por estacin.
6
4
2
0
Nmero de cortes
10
Nmero de cortes por ao
1960
1970
1980
Aos
1990
2000
18
Figura 13: Nmero de cortes por ao efectuados en el proceso.
Como se mencion anteriormente, la tercera fase del proceso de homogeneizacin se dedica
al relleno de todos los datos ausentes, tanto los que ya faltaban en las series originales como
los derivados del borrado de datos anmalos y del proceso de fragmentacin de las series. Esta
ltima fase genera otros dos bloques de grficos: de anomalas, similares a los de las dos fases
anteriores, y de series homogeneizadas y correcciones aplicadas.
La figura 14 muestra un ejemplo de los grficos de anomalas finales, en los que lneas verticales
a trazos indican la localizacin de los mximos valores de las pruebas SNHT (en verde para
ventanas escalonadas, siempre que haya un mnimo de 2*swa datos, y en negro sobre toda la
serie). Tambin se dibuja una recta de tendencia si es significativa al nivel = 0, 05.
Tras los grficos de anomalas, se presenta un grfico por cada serie original que muestra, en
la parte superior, las medias anuales mviles (o sumas mviles, si se especific gp=4), y en la
parte inferior, las correcciones aplicadas en cada reconstruccin (vase el ejemplo de la figura
15).
Las ltimas figuras consisten en histogramas de anomalas normalizadas (colorenado de rojo
las frecuencias de las que exceden el umbral de correccin de datos anmalos), y de valores
mximos de las pruebas de salto (tVx y SNHT). Advirtase que stos pueden ser mayores que
sus umbrales si, como en la aplicacin por defecto, el peso de las observaciones vecinas es
inferior en la ltima etapa de clculo de todos los valores ausentes que en las fases anteriores
de deteccin y correccin.
El ltimo grfico del fichero PDF generado representa los valores SNHT frente a los errores
RMSE (figura 16), de forma que pueda visualizarse de forma rpida la calidad (o singularidad)
de cada una de las series reconstruidas.
19
Tmin at S33(5), Pastores
4
2
0
2
(km)
100
Anomalas estandarizadas (observaciones estimas)
17
10
1
min.d.
25
1960
1970
1980
1990
2000
Aos
Figura 14: Anomalas de las series finales, con las localizaciones de los mximos valores de
SNHT y, si es significativa, la recta de la tendencia general.
Tmin at S11(3), Miraflores
10
Medias anuales mviles
9
8
7
6
5
4
2
Trminos correctores
x
0
6
1960
1970
1980
1990
2000
Aos
Figura 15: Serie original (en negro) y reconstrucciones de los valores anuales mviles (arriba),
y correcciones aplicadas a cada fragmento (abajo).
20
40
50
Calidad/singularidad de las estaciones
30
20
SNHT
14
1
18
12
15
20
4
26
10
27
16 8
2
21
9
24
22
10
19
13
11
23
6
17
25
0.0
0.2
0.4
0.6
0.8
1.0
1.2
RMSE
Figura 16: Grfico de los valores de SNHT y RMSE de cada serie final (original o
fragmentada).
4.3.
Ficheros *.esh y *.dah
Los ficheros *.esh y *.dah son equivalentes a los ficheros de entrada *.est y *.dat, pero
contienen los resultados de la homogeneizacin. Sin embargo, el archivo de estaciones homogeneizadas *.esh presenta informacin adicional, como podemos ver en las primeras lneas del
fichero Tmin_1956-2005.esh generado en el ejercicio de ejemplo:
27 53.9 456 "S03" "La Perla" 79 1 0 12
31.8 26.5 123 "S08" "El Palmeral" 11 2 0 8.4
49.2 30 154 "S11" "Miraflores" 31 3 0 5.1
En cada lnea aparecen los datos siguientes (los cinco primeros son los mismos que en el fichero
de entrada Tmin_1956-2005.est):
1 Longitud, X.
2 Latitud, Y.
3 Altitud, Z.
4 Cdigo de la estacin, Cd.
21
5 Nombre de la estacin, Nombre.
6 Porcentaje de datos originales, PD.
7 ndice de la estacin original en el fichero de entrada, io.
8 Marca binaria que indica si la estacin estaba funcionando al final del periodo de estudio (1)
o no (0), op.
9 Mximo valor SNHT, SNHT.
X y Y se expresan en las mismas unidades (km o grados) que en el fichero de entrada. En cuanto
al ndice de la estacin original (io), su propsito es identificar qu fragmentos pertenecen a
la misma serie original. As, la octava estacin de nuestro ejemplo (Esmeraldas), se ha cortado
dos veces, y por tanto en el fichero Tmin_1956-2005.esh aparecen tres fragmentos, y se ha
reconstruido una serie completa para cada uno de ellos (disponible en Tmin_1956-2005.dah):
31.6 56.2 498 "S40" "Esmeraldas" 48 8 0 21.1
31.6 56.2 498 "S40-2" "Esmeraldas-2" 7 8 0 5.5
31.6 56.2 498 "S40-3" "Esmeraldas-3" 8 8 0 3.1
Por estas lneas (que no aparecen consecutivas en el fichero) podemos ver que todas pertenecen a
la misma serie original, dado que: a) Tienen las mismas coordenadas; b) sus cdigos y nombres
son iguales, excepto por el sufijo numrico que se ha aadido para diferenciarlas; y c) su ndice
de estacin original io es el mismo (8). Pero hay que tener en cuenta que los sufijos numricos
no tienen porqu seguir el orden cronolgico de los fragmentos en la serie original, puesto
que se crean por orden de importancia del salto en la media. En nuestro ejemplo, si buscamos
las palabras S40 y se corta en el fichero de bitcora Tmin_1956-2005.txt, encontramos las
siguientes dos lneas, que indican que el primer corte (que da lugar a la serie S40-2) tiene lugar
en marzo de 2000, mientras que el segundo corte tiene lugar en un punto anterior (marzo de
1996), aunque cree la serie S40-3:
S40(8) se corta en 2000 3 (47.2)
S40(8) se corta en 1996 3 (28.5)
5.
Discusin y sugerencias
Si se necesitan con rapidez datos homogeneizados para un proyecto determinado, el investigador puede verse tentado a usar esta funcin de homogeneizacin como una caja negra, pero es
aconsejable que revise los ficheros de salida para comprobar si los parmetros usados, tanto
fijados en la llamada a la funcin como los establecidos por defecto, son apropiados para la red
climtica objeto de estudio. Hay que tener en cuenta que los valores ptimos de los parmentros variarn segn el elemento climtico de que se trate, su variabilidad espacial, y la densidad
temporal y espacial de las observaciones, y por consiguiente no pueden proveerse valores de
aplicacin universal.
22
Es ms, los parmetros escogidos pueden ser ptimos o no dependiendo del objeto final del
anlisis de las series. Ejemplo: si lo que se desea es obtener normales climticas, los ajustes de
la varianza no tendrn importancia, en tanto que stos sern cruciales si el objetivo es calcular
periodos de retorno de valores extremos. En este ltimo caso, se puede limitar la disminucin de
varianza asociada a las estimas ponderadas fijando una distancia de peso pequea en la tercera
fase, tal como wd=c(0,200,30)), o evitar las ponderaciones totalmente especificando en esta
fase final de clculo de todos los valores ausentes slo se usar una estacin de referencia
(nref=c(10, 10, 1)).
Por consiguiente, debera prestarse atencin a los grficos de diagnstico y ver si quedan inhomogeneidades pendientes de corregir, en cuyo caso habra que bajar los umbrales de tVt y/o
snhtt, o si, por el contrario, valores demasiado bajos de estos parmetros han producido una
excesiva fragmentacin de las series. Algunos autores han publicado valores crticos (ej.: Khaliq and Ouarda, 2007), y en el anexo de esta gua se comentan unas pruebas con series aleatorias
realizadas expresamente durante el desarrollo de Climatol.
De igual modo, dependiendo de la curtosis de la variable estudiada, puede que se hayan borrado
demasiados (o demasiado pocos) datos anmalos. El valor por defecto, 5 desviaciones tpicas,
es bastante conservador. Puede ajustarse a las necesidades de cada caso, e incluso fijar distintos
valores para cada fase del proceso. Por ejemplo, dz.max=c(6, 3.5, 9) slo eliminar las
mayores anomalas en la primera fase, y ser ms drstico en la segunda, para no eliminar ya
ningn otro dato en la ltima fase (salvo que su anomala superara las 9 desviaciones tpicas,
caso improbable tras las dos primeras fases correctivas).
No olvidar fijar deg=TRUE si las coordenadas de las estaciones estn expresadas en grados (comprobando que se da primero la longitud, y luego la latitud), y tambin escoger el tipo de normalizacin apropiado, prefiriendo std=2 para las variables con un cero natural (como la precipitacin o la velocidad del viento) y aplicando una transformacin raz si el histograma de los
datos muestra una distribucin con clara forma de L. Ntese que std=1 aplicar correcciones
constantes a los datos, y por tanto no se tendrn en cuenta posibles diferencias estacionales en
las inhomogeneidades, ni se ajustar ningn cambio en la varianza.
Si se va a homogeneizar un pequeo nmero de series, es recomendable fijar tVf=0 para evitar
cortar muchas series a la vez. En estos casos puede darse la situacin de que, en algn paso
temporal del periodo de estudio (normalmente al principio, que es cuando suele haber menos
observatorios en funcionamiento), slo se disponga de datos en una o dos series. En cualquier
paso de tiempo debe de existir al menos un dato vlido en alguna de las series para que el
programa pueda funcionar, pero en este caso los datos de ese paso de tiempo de todas las
dems series se rellenarn tomando ese dato como nica referencia, cuya calidad no se podr
comprobar. Si en lugar de un nico dato se dispone de dos, y sus anomalas o pruebas de salto
resultan demasiado grandes, el problema ser decidir cul de los dos datos es el incorrecto. Por
consiguiente, cuando slo existan dos datos en un determinado paso temporal, no se borrar
ninguno ni se efectuar ningn corte en las series en ese punto, limitndose el programa a
advertir si se han sobrepasado los umbrales correspondientes en el fichero de bitcora, como en
las lneas siguientes:
23
Para datos an-... Slo tiene 1 referencia! (No se elimina)
malos:
Para saltos en la... podra cortarse en ..., pero slo tiene una referencia
media:
(Los puntos sern reemplazados por la informacin sobre la estacin y el dato que resulten
sospechosos).
En estos casos, si la prueba de salto en la media resulta significativa, el nico modo de decidir
cul de los dos es el sospechoso es basarse en los metadatos. La historia de las estaciones puede
contener informacin sobre cul de las dos estaciones sufri un cambio de emplazamiento u otra
circunstancia que pueda haber afectado a las observaciones, en cuyo caso puede procederse a
cortar manualmente la serie y volver a lanzar el proceso de homogeneizacin.
Nunca se insistir suficientemente en lo importante que es guardar registrados todos los cambios
que afecten a un observatorio o sus alrededores, y varios mtodos de homogeneizacin hacen
uso de ellos (Aguilar et al., 2003). Desgraciadamente los metadados suelen ser muy incompletos
o incluso no existir en absoluto, y es por esto por lo que este paquete funciona sin ellos, aunque
es totalmente recomendable que el usuario los tenga en cuenta para comprobar si los resultados
de la homogeneizacin son consistentes con ellos.
Otra posibilidad cuando tratamos de homogeneizar unas pocas series y slo tenemos dos disponibles en algn subperiodo es complementarlas con otras derivadas de productos de reanlisis
en puntos de rejilla prximos, aunque estos reanlisis difcilmente se extendern hacia atrs ms
all de mediados del siglo XX.
Resumiendo, resulta recomendable realizar homogeneizaciones con diferentes parmetros y
comprobar cul de ellas resulta ms satisfactoria. Para evitar la reescritura de los archivos de salida de cada proceso, pueden renombrarse con la funcin outrename, que aadir un sufijo a su
nombre base. Ejemplo: si queremos conservar las salidas anteriores como Tmin_1956-2005-old.*,
usaremos la orden:
outrename("Tmin", 1956, 2005, "old")
Una vez optimizados los parmetros para la aplicacin de homogen a una base de datos concreta,
pueden conservarse para futuras homogeneizaciones de la misma, como sera el caso cuando
esa base se est actualizando con nuevos datos con el paso del tiempo, siendo recomendable
entonces rehomogeneizarla una vez al ao, dado que los datos aadidos pueden servir para
confirmar o rechazar inhomogeneidades localizadas en la parte final de las series.
6.
Explotacin de las series homogeneizadas
Una vez obtenido un conjunto de series satisfactoriamente homogeneizadas, el investigador es

libre de aplicar sus propios anlisis a las mismas y obtener valores estadsticos y grficos que
muestren la variabilidad espacial y temporal del elemento climtico objeto de estudio. Para facilitar algunos de los clculos ms frecuentes, este paquete incluye la funcin dahstat, que puede
invocarse con los siguientes parmetros, de los cuales slo los tres primeros han de asignarse
explcitamente (los dems adoptan por defecto los valores que aparecen entre parntesis):
24
varcli Acrnimo del nombre de la variable climtica estudiada.
anyi Primer ao del periodo de estudio.
anyf ltimo ao del periodo de estudio.
anyip Primer ao del periodo de clculo (anyi).
anyfp ltimo ao del periodo de clculo (anyf).
nm Nmero de datos por ao en cada estacin (12).
ndec Nmero de decimales de los valores calculados (1).
vala Valor anual a calcular (2). Pueden drsele los valores 0 (no calcular ningn valor anual),
1 (sumar los nm valores del ao), 2 (calcular su media, que es el clculo por defecto), 3 (el
valor anual ser el mximo de los nm valores), o 4 (el mnimo de los valores).
mnpd Filtrar las series que no posean este porcentaje mnimo de datos originales (0).
mnsh Filtrar las series cuyo SNHT sea superior a ste (0).
out Parmetro estadstico a calcular (el nombre del fichero de salida llevar esta extensin):
"med" Medias (parmetro por defecto).
"mdn" Medianas.
"max" Mximos.
"min" Mnimos.
"std" Desviaciones tpicas.
"q" Cuantiles (ver el parmetro prob).
"tnd" Tendencias.
Cualquier otra opcin evitar realizar clculo alguno, pero leer las series homogeneizadas, permitiendo al usuario la aplicacin de sus propios anlisis.
prob Probabilidad para el clculo de los cuantiles (si se ha establecido la opcin out="q" .
0.5 por defecto, lo que produce los mismos resultados que out="mdn" ).
func Poner func=TRUE para filtrar las series que no estuvieran en funcionamiento al final del
periodo de estudio. (FALSE por defecto, con lo que se usarn todas las series).
pernum Nmero de aos sobre los que expresar los valores de las tendencias (100).
eshcol Columnas del fichero de estaciones homogeneizadas (*.esh) a incluir en el fichero
de salida (4 por defecto, para identificar los datos calculados slo por el cdigo de cada
estacin).
sep Cadena de caracteres que debe usarse para separa los datos de salida (" " por defecto).
eol Estilo de finalizacin de lnea. (Cdigo de nueva lnea, "\n", por defecto).
25
Si no se especifica otra cosa, los clculos deseados se aplicarn a todas las series, dado que los
valores por defecto de los parmetros mnpd, mnsh y func no filtrarn ninguna serie.
En el fichero de salida, los valores calculados estarn separados por un espacio en blanco, pero
este comportamiento puede cambiarse con el parmetro sep. Por ejemplo, se pueden obtener
valor separados por punto y coma estableciendo sep=;. (Recordar que en R las cadenas de
caracteres pueden especificarse tanto con dobles comillas como con apstrofres).
Los ficheros de salida tendrn el mismo nombre base que los dems, y su extensin ser la
correspondiente a la opcin out elegida, con la excepcin de los cuantiles, cuya extensin ser
qPP, siendo PP la probabilidad escogida con el parmetro prob expresada en %.
Por tanto, para obtener las normales mensuales del periodo 1971-2000 a partir de las temperaturas mnimas previamente homogeneizadas, haramos:
dahstat("Tmin", 1956, 2005, 1971, 2000)
Pero si lo que queremos es calcular las tendencias para todo el periodo de estudio 1956-2005,
expresadas C/dcada (en lugar de por siglo) con dos decimales, e incluir las coordenadas de
las estaciones (columnas 1 y 2 del fichero Tmin_1956-2005.esh) tras los cdigos de estacin,
ordenaramos:
dahstat("Tmin",1956,2005,out="tnd",pernum=10,vala=1,ndec=2,eshcol=c(4,1,2))9
De este modo obtendramos la lista de tendencias en un fichero llamado Tmin_1956-2005.tnd,
que podra ser importado por un SIG para producir un mapa de tendencias. Alternativamente,
podramos generar ese mapa sin abandonar R, con la ayuda de otros paquetes (Bivand et al.,
2008). Ejemplo del comienzo de ese fichero de salida:
"Cd." "X" "Y" "Ene" "Feb" "Mar" "Abr" "May" "Jun" "Jul" "Ago" "Sep" "Oct" "Nov" "Dic" "Anual"
"S03" 27 53.9 0.04 0.01 0.05 -0.07 0.13 0.19 0.08 0.17 -0.21 0.1 -0.1 0.12 0.53
"S08" 31.8 26.5 -0.02 -0.01 0.15 0.06 0.17 0.21 0.05 0.13 -0.15 0.12 -0.04 0.08 0.75
"S11" 49.2 30 -0.01 0.05 0.08 0.05 0.24 0.23 0.11 0.12 -0.19 0.1 -0.09 0.07 0.76
...
7.
Y si los datos son diarios o sub-diarios?
En los ltimos aos ha aumentado el inters por la homogeneizacin de datos diarios. Esta es
una tarea bastante difcil, puesto que la deteccin de saltos en la media de las series es bsicamente un problema de relacin seal/ruido, y los valores diarios son generalmente demasiado
ruidosos para permitir esa deteccin. Por tanto, mientras prosiguen los trabajos en busca de las
tcnicas apropiadas para abordar este reto, este paquete no debera aplicarse a la deteccin de
cambios en las medias en series de datos diarios, a no ser que esos cambios sean suficientemente
grandes o la variabilidad de los datos muy pequea.
Un ejemplo real de baja variabilidad se encontr al investigar un cambio en la media de una
estacin termomtrica situada en un aeropuerto, gracias a que la cercana ubicacin de los sensores de temperatura en pista proporcionaron una referencia muy prxima para estudiar la serie
9 La
funcin de concatenacin c sirve en R para suministrar un vector de valores.
26
problemtica, y eso permiti detectar que una operacin de mantenimiento defectuosa produjo un cambio en la media de 0.9 C. La proximidad de los registros de referencia hizo posible
realizar esa deteccin en las diferencias de los datos diezminutales, cosa que hubiera sido muy
problemtica si esa referencia no hubiera existido, incluso con series de datos diarios.
El principal problema con los datos subdiarios cuando no hay referencias muy prximas reside
en la falta de sincrona entre las medidas, puesto que el paso de perturbaciones frontales o
clulas convectivas posiblemente tormentosas tendr lugar a distintas horas en las estaciones de
la red de observacin. Esto puede pasar incluso con series diarias de precipitacin, cuando un
aguacero tiene lugar alrededor de la hora de la observacin y es asignado a un da o al siguiente
segn la hora en la que alcanza a cada pluvimetro.
De todas formas, aunque generalmente sea desaconsejable la deteccin de saltos en la media
en series de datos diarios, es en ellas donde debera realizarse el control de calidad, antes que
en las series agregadas de datos mensuales. Ntese que un error de 10 C al leer o transcribir la
temperatura mxima de un da disminuye a slo 0.17 C en la temperatura media mensual (si
se calcula como promedio de las mximas y las mnimas). Por consiguiente, siempre que sea
posible la deteccin y correcin de datos anmalos debera realizarse sobre las medidas originales, tanto diarias (lo ms frecuente en el caso de estaciones de aficionados colaboradores) como
a instervalos ms cortos (normalmente en estaciones meteorolgicas automticas), aunque en
este ltimo caso la ya mencionada falta de sincronizacin puede hacer muy difcil disponer de
estaciones de referencia tiles.
Para evitar conflictos en los nombres de los ficheros de datos diarios y mensuales, aqullos se
distinguen en este paquete aadiendo el sufijo -d al acrnimo de la variable. Por ejemplo, si
hemos estado trabajando con los valores mensuales del fichero Tmin_1956-2005.dat, el que
contuviera los valores diarios se llamara Tmin-d_1956-2005.dat (y el fichero de estaciones
Tmin-d_1956-2005.est sera una mera copia del Tmin_1956-2005.est). La llamada a la
funcin homogen sera en este caso:
homogen("Tmin", 1956, 2005, nm=0, tVt=0, ini="1956-01-01")
Los grficos generados en Tmin-d_1956-2005.pdf pueden revelar algn salto importante en
la media que podra valer la pena corregir. En este caso, puede hacerse una nueva aplicacin
de homogen estableciendo valores apropiados para tVt y snhtt) en lugar del valor cero suministrado antes para evitar el anlisis de saltos. Tambin ser importante usar una ventana swa
grande para la prueba escalonada de SNHT, puesto que la persistencia de un determinado tipo
de circulacin atmosfrica puede inducir algn periodo de anomalas diarias altamente autocorrelacionadas, cosa ms difcil de ver en las series de datos mensuales.
Despus de haber obtenido las series de datos diarios con los datos ausentes rellenados y los
datos anmalos corregidos mediante la funcin homogen, el usuario puede desear obtener las
correspondientes series mensuales. Para ello puede hacer uso de la funcin dd2m, que comparte
muchos parmetros con dahstat: varcli, anyi, anyf, anyip, anyfp y ndec. Los otros parmetros de dd2m tambin resultarn familiares, por ser iguales o similares a otros que ya hemos
visto con anterioridad:
ini Fecha inicial, sin valor por defecto. Debe suministrarse con el formato AAAA-MM-DD
(AAAA=Ao, MM=mes y DD=da), para permitir una correcta asignacin de cada dato
diario al mes que le corresponda, puesto que los datos diarios no tienen porqu empezar
27
el 1 de enero.
valm Valor mensual a calcular: 1 (suma), 2 (media, el valor por defecto), 3 (mximo), o 4
(mnimo).
nmin Nmero mnimo de datos diarios disponibles en un mes para calcular el valor mensual
(15 por defecto).
na.strings Cdigo de ausencia de dato en el archivo de datos diarios ("NA" por defecto,
el estndar de R).
Por tanto, aplicaramos esta funcin a los datos diarios homogeneizados (aunque lo ms seguro es que no hayamos corregido saltos en la media) de nuestro ejemplo del siguiente modo:
dd2m("Tmin", 1956, 2005, ini=1956-01-01)
El fichero de salida se llamar Tmin-m_1956-2005.dah, con el nuevo sufijo -m que nos indica
que contiene datos mensuales calculados a partir del fichero de datos diarios, evitando as sobreescribir un posible fichero Tmin_1956-2005.dah ya existente. Esta ser la nica salida de
dd2m, pudiendo el usuario incluir estas series manualmente en una base de datos ms amplia.
Si se necesitan, las coordenadas y nombres de las estaciones se pueden tomar directamente del
fichero Tmin-d_1956-2005.est, puesto que los datos mensuales conservarn el mismo orden
de estaciones.
28
8.
Otras funciones de climatol
Este paquete incluye dos funciones adicionales que no guardan relacin con la homogeneizacin, sino que sirven para generar grficos de rosas de los vientos y diagramas de Walter y Lieth.
En los siguientes apartados se pueden ver ejemplos de aplicacin de las mismas.
8.1.
Rosas de los vientos
La funcin para su generacin se llama rosavent10 , y acepta los siguientes parmetros:

frec Tabla de datos con las frecuencias del viento.
fnum Nmero de referencias circulares a dibujar (4 circunferencias por defecto).
fint Incrementos (en %) de las referencias circulares (5 por defecto).
flab Parmetro para indicar qu circunferencias deben rotularse: 1 (slo la ms externa), 2
(todas, el comportamiento por defecto), o cualquier otro valor (no se rotular ninguna).
ang ngulo donde situar las etiquetas de las circunferencias (3*pi/16).
col Colores para rellenar los polgonos de frecuencias (rainbow(10,.5,.92,start=.33,end=.2)).
margen Vector de mrgenes para el grfico (para ser pasado a la funcin par, ver la ayuda de
parmetros grficos de R. Por defecto vale c(0, 0, 4, 0)).
key Fijarlo a FALSE si no se desea la leyenda que aparecera si se dan ms de una fila (intervalos
de velocidad) de frecuencias.
uni Unidades del viento para encabezar la leyenda (m/s).
... Cualquier otro parmetro grfico que quiera establecerse (como el ttulo de la figura, etc).
Ejemplo: Supongamos que tenemos las siguientes frecuencias en una tabla de datos llamada
frecvto (que podemos haber ledo de un fichero o calculado por otros medios):
N NNE NE ENE E ESE SE SSE S SSW SW WSW W WNW NW NNW
0-3 59 48 75 90 71 15 10 11 14 20 22 22 24 15 19 33
3-6 3
6 29 42 11
3 4
3 9 50 67 28 14 13 15
5
6-9 1
3 16 17 2
0 0
0 2 16 33 17 6
5 9
2
Entonces, la orden siguiente generara el grfico de la figura 17:
rosavent(frecvto, 4, 4, ang=-3*pi/16, main="Rosa anual del viento")
No hay ninguna restriccin en cuanto al nmero de columnas de la tabla de datos, con tal de que
la primera de ellas corresponda a las frecuencias del viento de direccin norte. (Esta funcin no
tiene en cuenta la cabecera de las columnas).
10 Contraccin
del cataln rosa dels vents.
29
Rosa anual del viento
m/s
03
36
69
>9
E
4%
8%
12 %
16 %
Figura 17: Ejemplo de una rosa de los vientos obtenida con la funcin rosavent.
8.2.
Climogramas de Walter y Lieth
Los diagramas climticos se han usado desde hace mucho como un medio de sintetizar el clima
de un lugar, y a los botnicos Bagnouls y Gaussen se les ocurri trazar la lnea de precipitaciones
mensuales a una escala doble que la de las temperaturas, para poder distinguir de una manera
sencilla los meses hmedos de los secos (segn que la lnea de las precipitaciones se site
por encima o por debajo de la de las temperaturas), y lo llamaron diagrama ombrotrmico
(Bagnouls y Gaussen, 1957). No mucho ms tarde, Walter y Lieth mejoraron ese diagrama
aadiendo informacin climtica suplementaria, sealando los meses con heladas probables o
seguras, y encogiendo la escala de las precipitaciones cuando sobrepasa los 100 mm mensuales
para permitir su aplicacin a todo el mundo, incluso en las zonas ms lluviosas (Walter y Lieth,
1960).
La funcin diagwl nos permite generar este tipode diagrama climtico a partir de una tabla de
datos que contenga las medias mensuales de precipitacin total y temperaturas mximas diarias,
mnimas diarias y mnimas mensuales. Los parmetros que admite son (entre parntesis, los
valores por defecto):
dat Datos climticos mensuales para generar el diagrama.
30
est Nombre de la estacin climatolgica ("" ).
alt Altitud de la estacin climatolgica (NA).
per Periodo de clculo de los datos mensuales ("" ).
margen Mrgenes del grfico (c(4,4,5,4)).
mlab Iniciales de los meses para rotular el eje X: "es" en espaol, "en" en ingls; con
cualquier otro valor rotularn con nmeros del 1 al 12 ("" ).
pcol Color del trazo de precipitaciones ("#005ac8" ).
tcol Color del trazo de temperaturas ("#e81800" ).
pfcol Color de relleno para heladas probables ("#79e6e8" ).
sfcol Color de relleno para heladas seguras ("#09a0d1" ).
shem Fijar a TRUE si la estacin est ubicada en el hemisferio sur (FALSE).
p3line Fijar a TRUE para dibujar una lnea suplementaria de precipitaciones a escala triple de
la temperatura11 (FALSE).
... Otros parmetros grficos que se desee establecer.
Como ejemplo, supongamos que ya hemos ledo nuestras medias climticas mensuales como
una tabla de datos llamada datcli, y que son las siguientes:
Ene
Prec.
97.4
Max.t. 15.4
Min.t. -0.1
Ab.m.t. -5.1
Feb
69.3
16.1
-0.4
-7.0
Mar
85.5
17.2
1.9
-3.5
Abr
71.1
19.7
4.9
-1.7
May
48.9
23.9
8.3
3.4
Jun
25.1
27.9
11.9
8.2
Jul
8.1
31.3
14.8
11.6
Ago
37.2
31.4
15.5
12.2
Sep
Oct
Nov
Dic
81.6 144.8 110.6 126.5
26.5 22.9 18.2 15.8
13.4
9.7
4.6
2.2
9.0
3.0 -1.7 -3.6
Para generar el climograma de la figura 18, llamaramos a la funcin de este modo:

diagwl(datcli,est="Estacin de ejemplo",alt=100,per="1961-90",mlab="es")
Puede verse el grfico de las medias mensuales de precipitacin y temperatura, anotado con las
medias anuales de ambos elementos (en la parte superior) y las temperaturas mximas diarias
medias del mes ms clido y mnimas diarias medias del mes ms fro (en el margen izquierdo).
La probabilidad de helada se muestra mediante rectngulos achatados adyacentes al eje de 0 C.
Los meses en que el promedio de temperatura mnima diaria es igual o inferior a cero podemos
estar seguros de que habr heladas, y el rectngulo se rellena (por defecto) con un azul ms
oscuro que si slo es igual o inferior a cero la temperatura mnima absoluta del mes, en cuyo
caso consideramos que las heladas pueden aparecer o no. La trama de lneas azules verticales
indica los meses hmedos, mientras que la trama de puntos rojos seala los ridos, pudiendo
hacernos una idea de la intensidad de la aridez o el exceso hdrico apreciando el rea cubierta
por cada tipo de trama.
11 Sugerencia
de Bogdan Rosca
31
Estacin de ejemplo (100 m)

196190
14.7C
906 mm
300
mm
50
100
40
80
30
60
20
40
10
20
31.4
0.4
Figura 18: Ejemplo de un diagrama de Walter y Lieth obtenido con la funcin diagwl.
9.
Bibliografa
Aguilar E, Auer I, Brunet M, Peterson TC, Wieringa J (2003): Guidelines on climate metadata
and homogenization. WCDMP-No. 53, WMO-TD No. 1186. World Meteorological Organization, Geneve.
Alexandersson H (1986): A homogeneity test applied to precipitation data. Jour. of Climatol.,
6:661-675.
Bagnouls F, Gaussen H (1957): Les climats biologiques et leurs classifications. Ann. de Geogr.,
355:193-220.
Bivand RS, Pebesma EJ, Gmez-Rubio V (2008): Applied Spatial Data Analysis with R. Springer, 376 pp.
Daget J (1979): Les modles mathematiques en cologie. Collection dcologie 8, 172 pp, Masson, Paris.
Khaliq MN, Ouarda TBMJ (2007): On the critical values of the standard normal homogeneity
test (SNHT). Int. J. Climatol., 27:681687.
Paulhus JLH, Kohler MA (1952): Interpolation of missing precipitation records. Month. Weath.
Rev., 80:129-133.
32
Peterson TC, Easterling DR, Karl TR, Groisman P, Nicholls N, Plummer N, Torok S, Auer I,
Bhm R, Gullett D, Vincent L, Heino R, Tuomenvirta H, Mestre O, Szentimrey T, Salinger J,
Frland E, Hanssen-Bauer I, Alexandersson H, Jones P, Parker D (1998): Homogeneity Adjustments of In Situ Atmospheric Climate Data: A Review. Int. J. Climatol., 18:1493-1518.
Sokal RR, Rohlf PJ (1969): Introduction to Biostatistics. 2nd edition, 363 pp, W.H. Freeman,
New York.
Walter H, Lieth H (1960): Klimadiagramm Weltatlas. G. Fischer, Jena.
10.
Anexo: Valores umbrales para las pruebas SNHT
Si bien ya se han publicado valores crticos para la prueba SNHT de Alexandersson, se realizaron simulaciones tipo Monte Carlo adaptadas especficamente a la manera en que se aplica esta
prueba en el paquete climatol:
Se generaron 2000 series de ruido blanco de 600 trminos con la funcin de R rnorm para
simular series de 50 aos de anomalas mensuales de una estacin homognea con series de
referencia tambin homogneas. A cada una de estas series se aplicaron saltos de 0,0 (ningn
salto), 0,5, 1,0, 1,5 y 2,0 desviaciones tpicas justo en mitad de la serie (a partir del trmino
301), y se realiz la prueba SNHT en ventanas de 2*swa trminos escalonados en pasos de swa
= 6, 12, 24, 48, 60, 90, 120, 180, 240 y 300 trminos. De cada una de las pruebas se guard el
mximo valor del estadstico T y la posicin donde se encontr. Por tanto, el nmero total de
resultados obtenidos fue: 2000 series * 5 saltos * 10 tamaos de semiventana = 100000.
En primer lugar analizaremos los resultados de las series homogneas (aqullas en las que no se
introdujo salto alguno). Estudiando la cola derecha de la distribucin acumulada emprica de los
valores mximos del estadstico T de la prueba SNHT, podemos obtener los valores umbrales
para evitar falsas detecciones de saltos en la media con niveles de confianza del 90 %, 95 %,
99 %, 99.5 % y 99.9 %. La figura 19 muestra esos umbrales, para estos niveles de confianza y
para los 10 desfases de swa trminos de una ventana de tamao 2*swa. La irregularidad de los
grficos debe atribuirse al azar, pero el aspecto general no debe diferir mucho si se realizara un
nmero mucho mayor de simulaciones. Resulta curioso el mximo que presentan los grficos
cuando se usan ventanas de tamao medio, puesto que los valores crticos publicados hasta
ahora muestran un incremento constante (aunque asinttico) al aumentar el tamao muestral.
Pero aqu la prueba slo se aplica una vez para cada serie cuando la ventana la contiene por
completo (cuando swa=300), mientras que con ventanas pequeas la prueba se aplica varias
veces sobre la misma serie, permitiendo al estadstico T alcanzar valores ms altos.
33
tV's para ruido blanco
Prob.
0.999
0.995
20
0.99
0.95
10
15
tV
0.9
12
24
48
60
90
120
180
240
300
swa (muestras de 2*swa trminos)
Figura 19: Valores umbrales (tV) de diez pruebas SNHT aplicadas a ventanas de 2*swa trminos
escalonadas swa trminos hacia adelante sobre series de ruido blanco, para cinco probabilidades
de evitar falsas detecciones de saltos en la media.
Lo siguiente que queremos saber es qu tan buenos son estos valores umbrales tV a la hora de
detectar correctamente los saltos en las medias. Para averiguarlo se contaron los valores de tV
superiores a los umbrales, y se calificaron como correctos si la localizacin del salto tena un
error inferior a 12 trminos12 y como errneos en caso contrario. Ambos se contabilizaron por
separado para cada uno de los 10 valores de swa, las 4 magnitudes de salto y los 5 niveles de
confianza.
La figura 20 resume los resultados de las proporciones de aciertos, mostrando que los saltos
de 0,5 desviaciones tpicas son bastante difciles de detectar, incluso con los mayores tamaos
muestrales, para los que el ndice de aciertos es de alrededor del 63 % para los cinco niveles de
confianza de evitar falsas detecciones. Los saltos de 1 desviacin tpica se detectan con mayor
fiabilidad: el 95 % cuando la prueba se aplica a las series completas (swa=300), y ms del 90 %
incluso para muestras de 120 trminos (swa=60), con tal de tolerar una probabilidad de falsos
positivos del 10 % (nivel de confianza de 0,90). Los saltos mayores (de 1,5 y 2 desviaciones
tpicas) se detectan casi totalmente con ventanas escalonadas de unos 100 trminos o ms (desde
swa=48 en adelante).
En cuanto a los falsos saltos (figura 21), con los mayores tamaos muestrales la probabilidad
de detectar los de 0,5 desviaciones tpicas en una posicin errnea alcanza hasta un 35 %, mien12 Un
ao, si tratamos con series mensuales
34
tras que con las muestras ms pequeas la probabilidad cae a menos del 1 % si el umbral de
deteccin (tVt) se establece suficientemente alto (niveles de confianza superiores a 0,99). En
las simulaciones de 1 desviacin tpica esta probabilidad de localizacin errnea es de un 5 a
6 % en la mayora de casos, y para magnitudes de salto mayores es prcticamente despreciable (excepto cuando los tamaos muestrales ms pequeos se combinan con bajos niveles de
confianza).
1.0 std. deviation shifts
200
400
600
Hit rate (per thousand)
400
300
200
100
500
800
600
0.9
0.95
0.99
0.995
0.999
0.9
0.95
Confidence level of no false breaks
0.995
0.999
600
400
0
200
200
400
600
800
800
1000
1000
0.99
0.9
0.95
0.99
0.995
0.999
0.9
0.95
6
12
0.99
0.995
0.999
24
48
60
90
120
180
240
300
Figura 20: Proporciones de acierto para diferentes magnitudes de salto, niveles de confianza de
evitar falsas detecciones, y tamaos muestrales de 2*swa trminos escalonados.
Por consiguiente, las mayores dificultades se encuentrarn cuando tratemos de detectar saltos
35
en la media de hasta 1 desviacin tpica, porque entonces la menor probabilidad de deteccin se
combina con un mayor riesgo de situar el corte en una posicin errnea. La figura 22 muestra
un ndice de bondad que, calculado como el producto de la probabilidad de deteccin y el
complemento de la probabilidad de falsas detecciones, intenta sintetizar ambos indicadores.
Para saltos de 0,5 desviaciones tpicas, hay un techo claro situado en 0,4, mientras que para
saltos de 1 desviacin tpica este ndice alcanza a valer 0,9 en las muestras de mayor tamao.
36
20
40
60
False hit rate (per thousand)
200
100
300
80
0.9
0.95
0.99
0.995
0.999
0.9
0.95
0.99
0.995
0.999
60
20
40
60
40
0
20
80
80
0.9
0.95
0.99
0.995
0.999
0.9
0.95
6
12
0.99
0.995
0.999
24
48
60
90
120
180
240
300
Figura 21: Proporcin de falsa deteccin para diferentes magnitudes de salto, niveles de confianza para evitar cortes falsos, y tamaos de ventana de 2*swa trminos (escalonadas swa trminos,
y mostradas con trazos diferentes).
El valor por defecto de swa en la funcin homogen se ha fijado en 60 (lnea azul claro en las
figuras), como un compromiso entre una buena probabilidad de deteccin de saltos y un alto
poder de discriminacin cuando en la serie se presentan ms de un salto en la media (situacin
bastante frecuente). Y en la segunda fase del proceso de homogeneizacin, la aplicacin de
la prueba SNHT a las series completas permitir detectar los saltos menores que no se hayan
corregido con las pruebas sobre ventanas escalonadas.
Importante nota final: Estos umbrales de tVt se han obtenido a partir de series sintticas de
37
ruido blanco, pero en el mundo real, las series de anomalas mostrarn inevitablemente algn
grado de autocorrelacin y tendencias generales o locales, dependiendo de la variable climtica,
su variabilidad espacial, la densidad de la red de observacin, y el tipo de dato (anual, estacional,
mensual, diario, ...). Es por ello por lo que los valores por defecto de tVt y snhtt se han
fijado en la funcin homogen notablemente ms altos que los obtenidos en las simulaciones de
Monte Carlo, y por tanto es aconsejable ajustarlos empricamente, con ayuda de los grficos de
diagnstico de una primera aplicacin exploratoria, para adaptar los resultados a las necesidades
de cada caso particular.
1.0
Goodness index for 0.5 sd shifts
swa
60
90
120
180
240
300
0.4
0.6
24
48
0.0
0.2
Goodness index
0.8
6
12
0.9
0.95
0.99
0.995
0.999
0.6
swa
24
48
60
90
120
180
240
300
0.4
6
12
0.0
0.2
Goodness index
0.8
1.0
Goodness index for 1.0 sd shifts
0.9
0.95
0.99
0.995
0.999
Figura 22: ndice de bondad para saltos de 0,5 (arriba) y 1,0 (abajo) desviaciones tpicas.

Guia para Usar Programas R y Clima

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Guia para Usar Programas R y Clima

Загружено:

Авторское право:

Доступные форматы

Gua del usuario de climatol

Un paquete de R para la homogeneizacin de series climatolgicas

Por Jos A. Guijarro (http://www.climatol.eu/)

Versin de esta gua:

1.1 (Octubre de 2012)

fichero depurdat.R contiene las funciones de homogeneizacin del paquete climatol.

(Fin de la introduccin rpida)

el uso de la funcin de concatenacin de R, c, para designar un vector numrico.

2.1. Regresin tipo II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2. Estimacin de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3. Deteccin y correcin de datos anmalos y saltos bruscos en la media . . . . .

3.1. Preparacin de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2. Homogeneizacin de las series . . . . . . . . . . . . . . . . . . . . . . . . . .

4.1. El fichero *.txt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2. Archivo *.pdf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3. Ficheros *.esh y *.dah . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Explotacin de las series homogeneizadas

7. Y si los datos son diarios o sub-diarios?

8. Otras funciones de climatol

8.1. Rosas de los vientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8.2. Climogramas de Walter y Lieth . . . . . . . . . . . . . . . . . . . . . . . . . .

10. Anexo: Valores umbrales para las pruebas SNHT

al menos, que las variaciones climticas sean suaves.

Estimacin de los datos

Figura 2: Formas adoptadas por la funcin de peso segn el semi-peso h (parmetro wd de la

los cambios en la varianza no se buscan explcitamente en este paquete.

Deteccin y correcin de datos anmalos y saltos bruscos en la media

Homogeneizacin de las series

Nr. de datos de Tmin en todas las estaciones

Figura 3: Nmero de datos disponibles.

Valores de Tmin (Ene)

Figura 4: Ejemplo de diagramas de caja de los datos.

Histograma de todos los datos

Figura 5: Histograma de todos los datos.

Correlograma de las primeras diferencias de las series

Figura 6: Grfico de correlacindistancia.

Dendrograma de las estaciones

Figura 7: Dendrograma construido a partir de la matriz de correlaciones.

Situacin de las estaciones de Tmin (2 grupos)

Figura 8: Mapa de la situacin de las estaciones, coloreadas por grupos.

Tmin at M56(10), Buena Vista

Anomalas estandarizadas (observaciones estimas)

Figura 9: Anlisis de las anomalas, sealando el punto de corte ms significativo.

tV mximo por estaciones

Histograma de los SNHT mximos

Nmero de cortes por estacin

Figura 12: Histograma del nmero de cortes por estacin.

Nmero de cortes por ao

Anomalas estandarizadas (observaciones estimas)

Medias anuales mviles

Calidad/singularidad de las estaciones

Ficheros *.esh y *.dah

Explotacin de las series homogeneizadas

Una vez obtenido un conjunto de series satisfactoriamente homogeneizadas, el investigador es

Y si los datos son diarios o sub-diarios?

funcin de concatenacin c sirve en R para suministrar un vector de valores.

Otras funciones de climatol

Rosas de los vientos

La funcin para su generacin se llama rosavent10 , y acepta los siguientes parmetros:

del cataln rosa dels vents.

Rosa anual del viento

Climogramas de Walter y Lieth

Para generar el climograma de la figura 18, llamaramos a la funcin de este modo:

4.3. Ficheros .esh y .dah . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Ficheros .esh y .dah