Академический Документы
Профессиональный Документы
Культура Документы
64 EPISTEMUS Claudio Alfredo Lpez Miranda et al.: UNISON / EPISTEMUS 17 / Ao 8/ 2014/ pg.: 63-69
EL MODELO DE REGRESIN LINEAL error de estimacin, denotado por . Los residuos
Los modelos de RL simple o bivariada, se utilizan como se representan grficamente como el segmento vertical
modelos de prediccin o pronstico. El caso ms tpico es entre el punto correspondiente sobre la recta y el
cuando la variable predictora, regresora o independiente punto observado .
X es una variable controlada (no aleatoria), mientras que la
variable de respuesta o dependiente Y resulta una variable ANLISIS EXPLORATORIO DE DATOS
aleatoria que tiene una distribucin aproximadamente Primeramente se debe de explorar si la distribucin de los
normal para cada valor x de X, pero con varianza constante datos se aproxima a un patrn lineal. Si el comportamiento
. Dicha varianza se debe al error aleatorio en cada se aleja de una lnea recta el modelo lineal se descarta.
medicin. Los modelos de RL surgieron desde 1889 En la figura 2 se ilustra el comportamiento de
cuando Francis Galton [1] los utiliz para pronosticar la mediciones de densidad de CO2 en ppm en la atmsfera
estatura de los hijos a travs de la estatura de los padres. sobre Mauna Loa, desde enero de 1965 hasta diciembre
El trmino regresin se us en principio para indicar que de 1980. Observe la tendencia de crecimiento promedio
ciertos fenmenos presentan continuamente mediciones lineal a grandes intervalos. El tiempo representa la variable
altas y bajas, pero que dichas mediciones eventualmente explicativa X en meses, mientras que la concentracin
regresan a un promedio desconocido pero esperado, de CO2 representa la variable de respuesta Y en ppm. Los
el cual depende del momento en que se mide x. Cuando datos se extrajeron del portal DataMarket.com usando la
el promedio indica un desempeo pobre, entonces se siguiente liga http://datamarket.com/data/set/22v1/co2-
dice que hay una regresin a la mediana, tal como lo ppm-mauna-loa-1965-1980#!ds=22v1&display=line; una
us Francis Galton [1] en su artculo pionero Regression vez en el portal hacer clic sobre la pestaa exportar para
towards mediocrity in hereditary stature, donde establece extraer la serie de tiempo en el formato deseado (Excel por
que hijos de padres altos no son tan altos como sus padres, ejemplo).
e hijos de padres bajos no son tan bajos como sus padres. Aunque no se muestran todos los detalles, se puede
Por cuestiones didcticas en los cursos de estadstica observar que la concentracin de CO2 se mantiene a
comnmente nos ensean primero a estimar los la alza por un perodo de 5 a 6 meses, para despus
parmetros y de la recta de regresin (1) sin tener un perodo de tiempo similar a la baja. Esta forma
necesidad de verificar los supuestos del modelo (aunque pseudosinusoidal que adquiere la concentracin de CO2 es
en una aplicacin real, el primer paso debe ser verificar muy similar al comportamiento oscilatorio de muchos de
la homocedasticidad de la varianza y la normalidad de los fenmenos de naturaleza geolgica.
los residuos). Dichos parmetros se estiman mediante
el anlisis de una muestra apareada de valores (x, y) y
aplicando el criterio de mnimos cuadrados:
(1)
Claudio Alfredo Lpez Miranda et al.: Propuesta de proyecto de estadstica: un modelo de EPISTEMUS 65
tipificados (Figura 3). Si la varianza es constante la grfica deben a la oscilacin de la serie de tiempo y algunos picos
no debe mostrar ningn patrn entre los residuos, como en la concentracin de CO2.
argumenta Lattin [2, p. 59]; por el contrario, si existe
1.0
heterogeneidad en la varianza (i.e. la varianza depende del
valor observado), la grfica puede mostrar anchos distintos
en la variabilidad, tpicamente una grfica en forma de
2.0 0.4
1.0
0.2
Residuos Estandarizados
0.0
0.0
0.0 0.2 0.4 0.6 0.8 10
Probabilidad acumulada observada
-1.0
Figura 4. Grfica de probabilidad normal P-P de residuos
estandarizados.
-2.0
66 EPISTEMUS Claudio Alfredo Lpez Miranda et al.: UNISON / EPISTEMUS 17 / Ao 8/ 2014/ pg.: 63-69
estimacin de los parmetros se realiza mediante un
paquete de cmputo estadstico, por ejemplo, Excel, (6)
SPSS, R, Matlab, o Calc de Open Office, los cuales realizan
el proceso automticamente. La ecuacin estimada de la Nota: Cuando se utiliza un paquete de cmputo,
recta result: debemos especificar si la constante tiene significado
prctico, ya que de ello depende con que frmula se
y =0.10095x + 318.82 (2) estima el parmetro . Se recomienda tener cuidado con
su eleccin, nosotros supusimos .
Lo anterior nos dice que al inicio de las mediciones
(tiempo x = 0) la densidad de CO2 se estima alrededor de COEFICIENTE DE DETERMINACIN
ppm; mientras que la pendiente positiva de El coeficiente de determinacin es utilizado para
la recta nos indica que la concentracin estuvo creciendo medir que tanta variacin de la concentracin de CO2 es
aproximadamente (estimacin) a ppm por mes. explicada por el modelo de regresin, es decir que tanto
No esperamos que la concentracin siempre suba 0.1 de la variacin se atribuye al crecimiento lineal (y no al
ppm cada mes, en ocasiones estar por debajo de su valor error aleatorio en cada medicin, ya que dicho error hace
esperado debido a la oscilacin. Lo que estamos estimando que vare por s misma la concentracin). Para calcular
con esta RL es la tendencia, la cual tiene sentido a grandes definimos la suma total de los cuadrados de Y como:
intervalos de tiempo. Dicho de otra forma, vemos que la
serie de datos oscila alrededor de una media; y lo que la (7)
regresin lineal nos dice es cmo crece esta media.
La estimacin de los parmetros del modelo de y obtenemos (tal como lo utiliza Devore [5, p. 463]),
regresin y de otros valores de inters, se realiza a travs
de un conjunto tpico de estadsticas, las cuales se resumen . (8)
a continuacin para referencias posteriores, entre ellas
estn , la suma de los cuadrados Se observa en (8) que el numerador representa la
(Sxx y Sxy) y la suma de productos Sxy: diferencia entre la desviacin total y la desviacin del
error, por lo que en realidad este numerador representa la
(3) desviacin atribuida a la regresin, lo que nos indica que
el 88.54% de la variacin encontrada en la concentracin
Donde: de CO2 es explicada por el modelo de regresin.
Esto se corrobora con el coeficiente de correlacin
y (4) , que mide el grado de dependencia
lineal entre el tiempo X y la concentracin de CO2 Y. Vemos
Para propsitos didcticos, a continuacin una dependencia lineal positiva muy fuerte al quedar r
mostraremos las frmulas para obtener las cantidades de prximo a uno.
inters. Estas frmulas se pueden consultar en cualquier
libro de estadstica como el de Devore [5, p.456] o el de ANLISIS DE LA PENDIENTE ESTIMADA
Draper [3, pp. 23-33].
Comenzamos calculando que representa la Una vez analizada la variabilidad y dependencia
pendiente estimada de la recta, es decir, la razn de cambio lineal, as como la estimacin de la pendiente de la recta,
mensual de CO2 ; y su ordenada en el origen que estima es necesario discutir la precisin de como estimacin
la concentracin inicial de CO2: puntual de dicha pendiente y dar un intervalo de
confianza. Recordemos que es una variable aleatoria
(5) ya que depende de la muestra. Por lo tanto, adems de la
estimacin puntual es necesario estimar su variabilidad
Con estos valores se obtiene la ecuacin de la esperada , as como un intervalo de confianza para
recta . As, y representar la concentracin inferir el rango de valores en el que se espera la tasa
observada real mientras ser la concentracin ajustada o mensual de CO2.
pronosticada; recordando que a la diferencia entre ellas se La desviacin estndar estimada y su coeficiente
le conoce como el residuo o error de estimacin, denotado de variacin , ver Jay L. Devore [5, p.470] son:
por , el cual es muy importante ya que se utiliza para
estimar el error de estimacin y para el anlisis residual (9)
anterior. Elevando al cuadrado los residuos y sumndolos
obtenemos la suma de cuadrados del error (SCE), tal que
. Con esta SCE se obtiene en (6), que (10)
representa una estimacin de la varianza del error de
estimacin y que se denota por : De donde observamos una desviacin estndar y un
Claudio Alfredo Lpez Miranda et al.: Propuesta de proyecto de estadstica: un modelo de EPISTEMUS 67
coeficiente de variacin bastante pequeo, indicando que prcticos el no rechazar quiere decir que la relacin
la estimacin es de muy buena precisin. lineal ser significativa, aun cuando pudiera no existir
En cuanto a la distribucin de como variable necesariamente una condicin de causalidad, como por
aleatoria, sabemos que es un estimador insesgado ejemplo cuando una variable oculta correlaciona a dos
(i.e., ) con distribucin normal; por lo tanto, variables entre s.
al tener una desviacin estndar desconocida, usamos
el estadstico T a continuacin (11), el cual tiene una PRONSTICO DE CONCENTRACIN
distribucin t con grados de libertad, esto se debe a PROMEDIO DE CO2 Y VALORES Y
que es el divisor de en (6), y representa el nmero El anlisis estadstico de las secciones anteriores nos
de grados de libertad asociado con la estimacin (o la suma permite confirmar en primer lugar que el modelo lineal
de cuadrados del error). Como lo explica Devore [5, p. 461], es adecuado, que el modelo explica gran porcentaje de
para obtener primero se deben estimar los parmetros la variabilidad de CO2 y que adems conocemos el error
y , lo que hace que se pierdan 2 grados de libertad. de estimacin, por lo tanto, aplicaremos el modelo como
Para ms detalles ver las exposiciones de Devore [5, pp. herramienta confiable de pronstico. Lo que haremos
468-482], y Daper y Smith [3, pp.35-38]. es fijar un tiempo determinado y calcular el ajuste
, el cual puede ser considerado como
(11) una estimacin puntual de la concentracin promedio
esperada en ese momento, es decir , o como una
A partir de este estadstico el intervalo de confianza prediccin individual y de la concentracin de CO2 que
para es resultar de una observacin puntual en el tiempo
. Las dos afirmaciones anteriores se justifican mediante el
(12) siguiente clculo:
Sustituyendo valores obtenemos el intervalo bastante (13)
angosto [0.0958, 0.1061], lo cual indica que estimamos a
con precisin y buen nivel de confianza del 95%. ya que se supone que el error aleatorio tiene valor
esperado igual a cero, adems de varianza constante
PRUEBA DE HIPTESIS DE UTILIDAD DEL MODELO . Por lo tanto, una estimacin natural de sera
Despus de estudiar la precisin en la estimacin, , que como se ve en el lado
haremos un anlisis inferencial respecto a la pendiente derecho es en s misma es una estimacin de y. Entonces,
a travs de su valor estimado , lo que algunos conocen si tratamos a como variable aleatoria (pues depende de
como prueba de utilidad del modelo. Esta prueba consiste y ), sabemos que hereda la distribucin normal (al ser
en establecer como hiptesis nula y como y vv.aa. normales), de acuerdo a Devore [5, p. 469],
alternativa como lo explica Devore [5, p. 474], en cuyo valor esperado es ; por tanto es
otras palabras, proponer demuestra que la pendiente un estimador insesgado de , tal que su varianza
es significativa en el modelo, y por tanto, la variable resulta, para los detalles ver el desarrollo presentado por
predictora X debe incluirse. Si es cierta, el estadstico Devore [5, p. 478].
de prueba de (11) resulta . Con n=192 este
estadstico resulta y el valor crtico de la regin (14)
de rechazo est dado por El
estadstico est muy alejado del valor crtico, por lo tanto, La raz cuadrada de (14) arroja la desviacin estndar
con 95% de confianza rechazamos contundentemente de , sin embargo, al sustituir por lo que obtendremos
y concluimos que nuestro modelo de regresin tiene es su estimacin denotada por :
pendiente significativamente distinta de cero, por lo que
se dice que el modelo lineal es til y adecuado. Aunque
en nuestro caso de estudio la relacin lineal es evidente (15)
(Figura 2), esta prueba se debe realizar en muchas
aplicaciones para confirmar o rechazar la utilidad del La desviacin estndar estimada se utiliza para
modelo lineal. Es importante mencionar que para fines construir los intervalos de confianza y de prediccin. Por
68 EPISTEMUS Claudio Alfredo Lpez Miranda et al.: UNISON / EPISTEMUS 17 / Ao 8/ 2014/ pg.: 63-69
ejemplo, el intervalo de confianza para el valor esperado La figura 5 nos permite comparar el comportamiento
de la concentracin de CO2 cuando se de los intervalos de confianza en los distintos tiempos xs.
estima como lo presenta Devore [5, p. 479]: Vemos que a medida que el tiempo se aleja del centro,
ambos intervalos se expanden, siendo el intervalo de
(16) confianza para el promedio mucho ms estrecho que el de
prediccin, tal como se dijo previamente. Las longitudes
el cual est basado en el siguiente estadstico mnimas y mximas de los intervalos de confianza y de
presentado por Devore [5, p. 478] que tiene distribucin t prediccin resultaron respectivamente 0.5733, 1.1356,
con grados de libertad: 7.9642 y 8.0243, las cuales se incluyeron en este anlisis.
(17) CONCLUSIONES
Este trabajo present una aplicacin de los modelos
Por otra parte, para calcular un Intervalo de prediccin de regresin lineal para estimar y pronosticar la tendencia
para una observacin y futura de la concentracin de CO2 de la concentracin de CO2 emitida por el volcn Mauna
cuando tenemos la ecuacin: Loa con respecto al tiempo. Se mostr que la tcnica de
regresin es til y adecuada como modelo pronosticador.
, (18) Adems, se present el error de estimacin y se analiz
el comportamiento de un intervalo de confianza para
el cual est basado en el siguiente estadstico que la concentracin promedio de CO2 y de un valor
tambin tiene una distribucin t con grados de de prediccin en cualquier momento. El trabajo fue
libertad, revisar Devore [5, p. 482]: presentado de manera didctica para estudiantes de
ciencias exactas y naturales, como prototipo de artculo
de investigacin donde se aplique el modelo de regresin
(19) lineal simple, aunque tambin puede servir para orientar
a estudiantes de algunas reas donde se enseen tanto la
parte descriptiva como de inferencia de este modelo de
En la figura 4 aparecen los intervalos de confianza regresin.
para la concentracin promedio esperada y un valor
de prediccin y. Observe que el intervalo de confianza BIBLIOGRAFA
para la concentracin promedio esperada es mucho ms
estrecho que el intervalo de confianza para la prediccin 1) F. Galton, Regression towards mediocrity in hereditary
stature, Anthropological Miscellanea, 1889.
de observaciones, ya que a medida que el valor x se acerca 2) J. Lattin, J. D. Carroll, P. E. Green, Analyzing Multivariate
al promedio de los datos ( ) la desviacin del estadstico Data, Belmont, CA: Duxbury Applied Series, 2002.
utilizado es menor (15). 3) N. R. Draper, H. Smith, Applied Regression Analysis, New
York: 3rd Ed., Wiley, 1998.
4) C. Prez, Tcnicas de Anlisis de Datos con SPSS, Madrid:
345 Pearson Prentice Hall, 2009.
5) J. L. Devore, Probabilidad y Estadstica para Ingeniera y
Ciencias, Mxico: Sptima Edicin, Cengage Learning, 2008.
340
335
CO2 ( ppm )
330
325
Recta de regresin
Intervalo de confianza
320
data3
Intervalo de prediccin
data5
315 Datos observados
310
0 20 40 60 80 100 120 140 160 180 200
x tiempo en meses
Claudio Alfredo Lpez Miranda et al.: Propuesta de proyecto de estadstica: un modelo de EPISTEMUS 69