Вы находитесь на странице: 1из 13

UNA APLICACION REAL DEL MTODO DE REGRESIN LINEAL

Planteamiento del problema

Desde siempre los seres humanos han buscado adelantarse a cualquier


eventualidad con la finalidad de minimizar los riesgos en cualquiera de sus
actividades tanto recreativas como aquellas de carcter econmico.
Particularmente en agricultura, se ha vuelto indispensable contar con bases de
datos meteorolgicos fiables, ya que todas las actividades agrcolas dependen en
gran parte del clima.

En Mxico, la Comisin nacional del agua (Conagua), a travs del Servicio


Meteorolgico Nacional (SMN), es la fuente oficial de datos meteorolgicos y
climticos. No obstante, la base de datos con que cuenta el SMN no es la ptima
si lo que se busca es hacer inferencias para la agricultura, ya que las estaciones
del SMN no se encuentran en zonas agrcolas, adems de que existe un retraso
considerable para la disposicin de los datos (vara de regin a regin pero los
retrasos van desde meses hasta varios aos). Es por estas razones que en
Sonora se impuls con ayuda del gobierno y de los productores agrcolas el
establecimiento de la red de estaciones agro meteorolgicas conocida en la
actualidad como la red AGROSON (AGROSON, 2004)

La red AGROSON tuvo sus inicios en 1996 con la instalacin de tres estaciones
(Cd. Obregon (CIANO), Caborca (CIANO), Hermosillo (CECH)) y en la actualidad
cuenta con 52 estaciones, distribuidas en las diferentes regiones agrcolas del
Estado. Dichas estaciones registran rutinariamente en periodos de 10 minutos,
nueve variables meteorolgicas (Temperatura ambiente, temperatura mxima,
temperatura mnima, humedad relativa, radiacin solar, precipitacin, humedad de
la hoja, velocidad y direccin del viento).

19
Con el establecimiento del Sistema de Alerta Fitosanitaria del Estado de Sonora
(SIAFESON, 2008) se volvi prioritario contar con un sistema de control de calidad
de los datos meteorolgicos, por lo que entre los diversos objetivos del SIAFESON
se encuentra el de organizar y depurar las bases de datos climticos y
meteorolgicos existentes en Sonora. Como resultado de la depuracin ya
mencionada se encontr que la base de datos de la red AGROSON contaba con
gran cantidad de huecos (Figura 7. Pag. 25) en sus registros de temperatura
ambiente, es decir prdida de datos, como consecuencia de los altos costos de
mantenimiento y de errores en el manejo de la base de datos. Es por ello que el
personal del SIAFESON se ha dado a la tarea de recuperar los datos perdidos
en la medida de sus posibilidades.

Objetivo General

Estandarizar y rellenar las series de temperatura de las estaciones


agrometeorolgicas del Valle del Mayo para su utilizacin en los diversos modelos
fitosanitarios aplicables al sur de Sonora.

Justificacin

A lo largo del programa y de los estudios llevados por AGROSON, la informacin


obtenida y la certeza de los datos ofrecidos por AGROSON se ha visto seriamente
cuestionada, ya que se han encontrado datos fuera de rango, series incompletas,
demasiados huecos en la informacin, inhomogeneidad de la informacin
(corrimientos de cero) o columnas con los mismos datos. Los problemas antes
mencionados obedecen a diversas circunstancias que van desde el problema de
comunicacin con las estaciones hasta un manejo inadecuado de la informacin.
Los modelos fitosanitarios requieren de series de tiempo fiables de las diversas
variables meteorolgicas. Una serie de tiempo o serie temporal es una coleccin
de observaciones tomadas a lo largo del tiempo cuyo objetivo principal es
describir, explicar, predecir y controlar algn proceso. Las observaciones estn
20
ordenadas respecto al tiempo y sucesivas observaciones son generalmente
dependientes.

Este trabajo busca dotar al SIAFESON de series de tiempo fiables y continuas en


el tiempo para la variable temperatura de las estaciones del Valle del Mayo para
su utilizacin en modelos fitosanitarios con fines de pronstico. Lo anterior servira
para prevenir o pronosticar problemas fitosanitarios en la zona con mayor certeza
de la que se tiene actualmente.

Delimitaciones del Estudio


En Sonora existen 52 estaciones Agro meteorolgicas, de las cuales este trabajo
se enfocar en nueve estaciones correspondientes a la zona agrcola del Valle del
Mayo (Figura 4). Cabe mencionar que si bien es necesario estandarizar y rellenar
las series de tiempo de las nueve variables que se registran en las estaciones,
este trabajo se centrar en las series de temperatura ambiente, que incluye:
temperatura mnima, mxima y promedio; ya que son las variables con mayor
demanda dentro de los modelos fitosanitarios.

Figura 4: Estaciones agro meteorolgicas en el Valle del Mayo

21
El Valle del Mayo
El Valle del Mayo es la zona que comprende desde las sierras de Alamos hasta
las costas de Huatabampo, este valle limita al norte con el Valle del Yaqui, al sur
con el estado de Sinaloa y al oriente con el Mar de Cortez. El Valle del Mayo
comprende los municipios de Huatabampo, lamos, Etchojoa, Quiriego y Navojoa.
Esta zona se caracteriza por su riqueza en suelos, adems por sus mantos
acuferos localizados al sur de estado, por los cuales hacen ideal estas tierras
para la agricultura, que por sus caractersticas meteorolgicas y geogrficas, lo
hacen un lugar ideal para la siembra. El Valle del Mayo cuenta con una superficie
de alrededor de 140 mil hectreas, de las cuales su principal produccin es de
trigo.

22
dologa ap
Metod plicada
El pro
ocedimiento
o que se sig
gui para resolver
r la problemtic
p ca plantead
da se resum
me
en el esquema siguiente,
s el cual se exxplicara en la seccin de resultad
dos:

Figura 5. Metodologa aplicada


a

Analizzar base de datos

Identificar paatrn de daatos faltanttes

Se
eleccionar mtodo de
e imputaci
n

De
epurar dattos

Estimar corrrelacin enttre variable


es

D
Definir parmetros y modelos
m parra
daatos faltanttes

Estimar valores faaltantes

Anlissis de resulltados

2
23
Resultados del caso

Analizar base de datos.


La base datos analizada incluye 80,109 registros correspondientes a 2967 das
comprendidos entre enero del 2002 hasta junio de 2010.
Se detectaron valores no factibles o improbables, adems de mltiples datos
faltantes. Despus de eliminar los valores improbables se identific un total de
19,335 datos faltantes, que equivalen al 24.13%.

En la tabla 5 que aparece a continuacin, se detallan los datos faltantes por


estacin.
Tabla 5: Resumen de datos faltantes por estacin
No.Datos
Estacin No.Datos % de faltantes Observaciones
faltantes
Jupare 8901 2733 30.70% Inici operaciones el 1/1/2003
Buaysicobe 8901 2022 22.72%
Tesia 8901 1047 11.76%
Sahuaral 8901 2040 22.92%
Mumuncuera 8901 2055 23.09%
Tres Carlos 8901 2067 23.22%
Cemay 8901 111 1.25% Inici operaciones el 1/25/2002
Chapote 8901 3930 44.15% Inici operaciones el 1/23/2005
Huatabampo 8901 3330 37.41% Inici operaciones el 5/15/2005
TOTAL 80109 19335

Identificar patrn de datos faltantes.


Al analizar la matriz de datos faltantes, se puede identifica un patrn de datos
perdidos completamente al azar, es decir del tipo MCAR. Por las dimensiones de
la matriz (27x2967), no es posible reproducirla completamente para su
visualizacin, pero en la figura 6 se muestra un segmento de la misma, y en la
figura 7 se puede apreciar la ausencia de datos en las series de temperatura de
manera muy agregada.

24
Figura 6. Patrn general de datos faltantes

Figura 7. Patrn de series de datos de temperatura ambiente

25
Seleccionar mtodo de imputacin
Para seleccionar el mtodo de imputacin se consideraron los siguientes
aspectos:
El tipo de variable a imputar es continua (temperatura mxima, mnima y
promedio);
El propsito de la imputacin es contar con una base datos completa y
consistente para que posteriormente estos datos puedan ser utilizados en
modelos fitosanitarios con fines de pronstico, que sirvan para prevenir o
pronosticar problemas fitosanitarios en la zona con mayor certeza.
La base de datos no ser utilizada para anlisis de covarianza o
correlacin.
La naturaleza de la variable a imputar y el patrn de datos faltantes.
La red AGROSON no cuenta con software especializado, por lo que es
necesario realizar la imputacin con los recursos disponibles.
La opinin de expertos en meteorologa.

El mtodo de imputacin seleccionado es el de Regresin Lineal a partir de


variables correlacionadas. El coeficiente de correlacin mnimo aceptable se
estableci en 0.9.

Considerando que se requiere estimar los datos faltantes de 27 variables distintas


(3 variables x 9 estaciones), se necesita definir una ecuacin de regresin lineal
para cada una de ellas.

Depurar datos
Para poder analizar la relacin entre las variables de la base de datos, es
necesario estandarizar los tamaos de muestra de todas las estaciones; con este
propsito, se eliminaron todos los registros correspondientes a las fechas donde
existan observaciones con datos incompletos y se organiz la base de datos en
EXCEL.

26
Estimar correlacin entre variables
Para calcular la correlacin entre las variables, se construyeron 3 matrices (una
para cada tipo de variable faltante) a partir de la informacin obtenida aplicando la
herramienta anlisis de datos de EXCEL. Las matrices de correlacin aparecen
en las tablas 6, 7 y 8.

Tabla 6: Coeficiente de Correlacin para la variable Temperatura mxima.


T.Max Jupare Buayisacobe Tesia Huatabampo Sahuaral Mumuncuera Tres Carlos Cemay Chapote
Jupare 0.9707 0.9567 0.9851 0.9832 0.9658 0.9746 0.9514 0.9617
Buayisacoba 0.9717 0.9817 0.9812 0.9739 0.9797 0.9694 0.9805
Tesia 0.9735 0.9761 0.9738 0.9775 0.9690 0.9701
Huatabampo 0.9859 0.9876 0.9877 0.9671 0.9727
Sahuaral 0.9763 0.9822 0.9664 0.9733
Mumuncuera 0.9832 0.9660 0.9666
Tres Carlos 0.9682 0.9731
Cemay 0.9624
Chapote

Tabla 7. Coeficiente de Correlacin para la variable Temperatura mnima.


T.Min Jupare Buayisacobe Tesia Huatabampo Sahuaral Mumuncuera Tres Carlos Cemay Chapote
Jupare 0.9886 0.9795 0.9922 0.9929 0.9878 0.9907 0.9840 0.9907
Buayisacoba 0.9848 0.9881 0.9885 0.9804 0.9865 0.9848 0.9907
Tesia 0.9801 0.9802 0.9783 0.9821 0.9843 0.9872
Huatabampo 0.9915 0.9866 0.9918 0.9845 0.9907
Sahuaral 0.9908 0.9933 0.9861 0.9935
Mumuncuera 0.9941 0.9855 0.9888
Tres Carlos 0.9880 0.9926
Cemay 0.9895
Chapote

Tabla 8. Coeficiente de Correlacin para la variable Temperatura promedio.


T.Prom Jupare Buayisacobe Tesia Huatabampo Sahuaral Mumuncuera Tres Carlos Cemay Chapote
Jupare 0.9935 0.9882 0.9965 0.9958 0.9908 0.9942 0.9830 0.9910
Buayisacoba 0.9917 0.9944 0.9933 0.9913 0.9938 0.9860 0.9942
Tesia 0.9920 0.9921 0.9923 0.9934 0.9881 0.9931
Huatabampo 0.9973 0.9965 0.9977 0.9871 0.9943
Sahuaral 0.9951 0.9963 0.9868 0.9946
Mumuncuera 0.9969 0.9877 0.9931
Tres Carlos 0.9881 0.9946
Cemay 0.9874
Chapote

27
Definir parmetros y modelos para datos faltantes
Se ajust un modelo de Regresin Lineal para cada variable faltante, tomando
como variables predictoras las que tenan un coeficiente de correlacin mayor y
datos disponibles en las fechas requeridas.

Por ejemplo, si consideramos la estacin Tres Carlos y requerimos imputar la


variable Temperatura mxima, para las fechas comprendidas del 30 de enero de
al 21 de febrero de 2002 se utilizaran los datos de la estacin Huatabampo ya
que tiene el mayor coeficiente de correlacin: 0.987737311 (ver figura 6), pero en
este caso la estacin Huatabampo no tiene datos disponibles en la fecha
requerida; la nica estacin con datos en esas fechas es Tesia con un coeficiente
de correlacin de 0.9777.

El anlisis de datos de EXCEL, tambin proporciona los parmetros de la


ecuacin de regresin lineal, los cuales se organizaron en 27 matrices (una para
cada variable faltante) que aparecen en el anexo 2.

En la tabla 9 se muestra la matriz correspondiente a la variable Temperatura


mxima de la estacin Tres Carlos:

Tabla 9: Matriz de Coeficientes de Correlacin, Pendiente e Interseccin


Tres Carlos
Estacin Coef. Correlacin Pendiente Interseccin
Huatabampo 0.987737311 1.026521005 -0.412547279
Mumuncuera 0.983221225 0.996119398 0.209765894
Sahuaral 0.982241584 0.989327546 -0.271157996
Buayisacobe 0.979669398 0.939473246 -0.210107464
Tesia 0.977485269 1.008415564 -1.218797738
Jupare 0.97460431 -0.210107464 -0.210107464
Chapote 0.973061957 0.932072241 1.540377708
Cemay 0.968238191 0.903293815 2.344118732

28
por lo tanto la ecuacin de regresin a utilizar para estimar las temperaturas
mximas es:
= -1.218 + 1.008 xi

Estimar valores faltantes


Para calcular los valores faltantes, se aplica la ecuacin anterior y se obtienen los
valores que aparecen en la tabla 12.
Tabla 10: Valores faltantes (yi) Tabla 11: Valores a utilizar (xi)

TRES CARLOS TESIA


Fecha T.Prom T.Max T.Min Fecha T.Prom T.Max T.Min
30/01/2002 30/01/2002 14.08 19.29 5.545
31/01/2002 31/01/2002 13.53 20.81 4.655
01/02/2002 01/02/2002 11.52 19.95 2.68
02/02/2002 02/02/2002 16.29 25.96 9.76
03/02/2002 03/02/2002 17.77 24.16 12.15
04/02/2002 04/02/2002 16.17 18.28 14.03
05/02/2002 05/02/2002 15.62 21.27 9.46
06/02/2002 06/02/2002 15.41 25.01 7.88
07/02/2002 07/02/2002 16.42 26.13 8.21
08/02/2002 08/02/2002 17.28 29.19 8.28
09/02/2002 09/02/2002 15.98 27.97 5.22
10/02/2002 10/02/2002 16.11 26.85 4.001
11/02/2002 11/02/2002 17.93 27.68 8.11
12/02/2002 12/02/2002 16.28 26.59 6.832
13/02/2002 13/02/2002 16.45 27.18 6.436
14/02/2002 14/02/2002 17.6 28.04 8.08
15/02/2002 15/02/2002 19.81 30.63 12.29
16/02/2002 16/02/2002 20.06 29.95 11.86
17/02/2002 17/02/2002 17.55 26.93 11.53
18/02/2002 18/02/2002 15.49 23.11 7.39
19/02/2002 19/02/2002 13.98 25.83 3.076
20/02/2002 20/02/2002 15.55 27.81 4.166
21/02/2002 21/02/2002 18.25 31.71 3.935

29

Tabla 12. Valores estimados

Ecuacin para T.Mxima Ecuacin para T.Mnima Ecuacin para T.promedio


y=a+bX Fecha T.Max y=a+bX T.Min y=a+bX T.Prom
a= -1.2188 30/01/2002 18.23354 a= 1.079526 6.575243 a= -0.84998 12.84686
b= 1.008416 31/01/2002 19.76633 b= 0.991112 5.693153 b= 0.972787 12.31182
01/02/2002 18.89909 3.735707 10.35652
02/02/2002 24.95967 10.75278 14.99672
03/02/2002 23.14452 13.12154 16.43644
04/02/2002 17.21504 14.98483 14.87998
05/02/2002 20.2302 10.45545 14.34495
06/02/2002 24.00168 8.88949 14.14066
07/02/2002 25.1311 9.216557 15.12318
08/02/2002 28.21685 9.285935 15.95977
09/02/2002 26.98659 6.253132 14.69515
10/02/2002 25.85716 5.044966 14.82161
11/02/2002 26.69415 9.117446 16.59209
12/02/2002 25.59497 7.850805 14.98699
13/02/2002 26.18994 7.458324 15.15236
14/02/2002 27.05717 9.087713 16.27107
15/02/2002 29.66897 13.26029 18.42093
16/02/2002 28.98325 12.83412 18.66412
17/02/2002 25.93783 12.50705 16.22243
18/02/2002 22.08569 8.403845 14.21849
19/02/2002 24.82858 4.128187 12.74958
20/02/2002 26.82524 5.208499 14.27685
21/02/2002 30.75806 4.979553 16.90338

El procedimiento descrito para el ejemplo es el que se sigui para estimar todas


las variables faltantes.

30
Anlisis de resultados

Como resultado de la imputacin por regresin lineal, se pudieron estimar todos


los datos faltantes. Todos los valores imputados se consideran factibles ya que se
encuentran dentro del rango esperado. No se detectan sesgos con respecto al
comportamiento de los datos.

Figura 8: Valores Imputados


35

30

25

20
T.Max
15
T.Min
10 T.Prom

5 Lineal (T.Prom)

31

Вам также может понравиться