Вы находитесь на странице: 1из 17

UNIVERSIDAD AUTONOMA DE CHIHUAHUA

Facultad de Ciencias Qumicas


Ismael Esparza Trujillo
257538
Bioestadstica
Profesor Narciso Torres Flores.
Grupo: 6to C
REGRASION LINEAL Y CORRELACION.

REGRESIN LINEAL SIMPLE


Ajuste de una lnea recta por mnimos cuadrados

Introduccin
Regresin simple y correlacin
La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar
para solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar
alguna Relacin Funcional entre dos o ms variables, donde una variable depende
de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en
un modelo de Regresin Simple.
"Y es una funcin de X" Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la variable
dependiente y cul es la variable independiente.
En el Modelo de Regresin Simple se establece que Y es una funcin de slo una
variable independiente, razn por la cual se le denomina tambin Regresin
Divariada porque slo hay dos variables, una dependiente y otra independiente y se
representa as:
Y = f (X) "Y est regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. Tambin se le
llama regresando variable de respuesta.
La variable Independiente X se le denomina variable explicativa regresor y se le
utiliza para explicar y.
Expresndolo en forma simple, la regresin lineal es una tcnica que permite
cuantificar la relacin que puede ser observada cuando se grafica un diagrama de
puntos dispersos correspondientes a dos variables, cuya tendencia general es
rectilnea.
Parece que Sir Francis Galton (1822-1911) un antroplogo y metereolgo britnico
fue responsable de la introduccin de la palabra regresin, mostr que si Y =
estatura de los nios y X = estatura de los padres, una ecuacin de ajuste
2
adecuada era Y Y 3 ( X X ) . El artculo de Galton es fascinante como se cuenta en The
Story of the Statistics1, el mtodo de mnimos cuadrados aparentemente fue
descubierto por Carl Frederick Gauss (1777-1855) 2.
^

__

__

El mtodo de anlisis llamado anlisis de regresin, investiga y modela la relacin


entre una variable Y dependiente o de respuesta en funcin de otras variables de
prediccin Xs, a travs del mtodo de mnimos cuadrados.
Como ejemplo supngase que un ingeniero industrial de una embotelladora est
analizando la entrega de producto y el servicio requerido por un operador de ruta
para surtir y dar mantenimiento a maquinas dispensadoras. El ingeniero visita 25
locales al azar con mquinas dispensadoras, observando el tiempo de entrega en
minutos y el volumen de producto surtido en cada uno. Las observaciones se
1
2

grafican en un diagrama de dispersin (Fig. 1.1), donde claramente se observa que


hay una relacin entre el tiempo de entrega y el volumen surtido; los puntos casi se
encuentran sobre una lnea recta, con un pequeo error de ajuste.
En general los modelos de regresin tienen varios propsitos como son:

Descripcin de datos a travs de ecuaciones

Estimacin de parmetros para obtener una ecuacin modelo

Prediccin y estimacin.

Control.

El modelo de regresin lineal simple


SUPOSICIONES DE LA REGRESIN LINEAL
Los valores de la variable independiente X son fijos, medidos sin error.
La variable Y es aleatoria
Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones
Y)
Las variancias de las subpoblaciones Y son todas iguales.
Todas las medias de las subpoblaciones de Y estn sobre la recta.
Los valores de Y estn normalmente distribuidos y son estadsticamente
independientes.
Al tomar observaciones de ambas variables Y respuesta y X prediccin o regresor,
se puede representar cada punto en un diagrama de dispersin.
Y
*
*
*** *
*** **
***

X
Diagrama de dispersin y recta de ajuste
El modelo de ajuste o modelo de regresin lineal es:
Y 0 1 X

Donde los coeficientes 0 y 1 son parmetros del modelo denominados


coeficientes de regresin, son constantes, a pesar de que no podemos determinarlos
exactamente sin examinar todas las posibles ocurrencias de X y Y, podemos usar la
informacin proporcionada por una muestra para hallar sus estimados b0 , b1 . El error
es difcil de determinar puesto que cambia con cada observacin Y. Se asume que
los errores tienen media cero, varianza desconocida 2 y no estn correlacionados
(el valor de uno no depende del valor de otro). Por esto mismo las respuestas
tampoco estn correlacionadas.
Conviene ver al regresor o predictor X como la variable controlada por el analista y
evaluada con el mnimo error, mientras que la variable de respuesta Y es una
variable aleatoria, es decir que existe una distribucin de Y con cada valor de X.
La media de esta distribucin es:

E ( y | x ) 0 1 x

y su varianza es:
V ( y | x ) V ( 0 1 x ) 2
De esta forma la media de Y es una funcin lineal de X a pesar de que la varianza de
Y no dependa de los valores de X.
Estimacin de los parmetros por mnimos cuadrados
El mtodo de mnimos cuadrados se usa para estimar 0 y 1 se estimar 0 y 1
de manera que la suma de cuadrados de las diferencias entre la observaciones yi y
la lnea recta sea mnima. Los parmetros 0 y 1 son desconocidos y deben ser
estimados usando datos de una muestra. Supongamos que se tienen n pares de
datos (y1, x1), (y1, x1), (y2, x2),....., (yn, xn) de un experimento o por historia.
De la ecuacin modelo de regresin de la poblacin
Y 0 1 X

Usando los pares de datos se puede establecer el criterio de mnimos cuadrados


como:
n

S ( 0 , 1 ) ( yi 0 1 xi ) 2
i 1

Los estimadores de mnimos cuadrados de 0 y 1 por decir 0 , 1 debe satisfacer


es:
S
0

0 , 1

2 ( yi 0 1 xi ) 0
i 1

y
S
1

0 , 1

2 ( yi 0 1 xi ) xi 0
i 1

Simplificando estas dos ecuaciones se obtienen las ecuaciones de mnimos


cuadrados:
n

n 0 1 xi yi
i 1

i 1

i 1

i 1

i 1

0 xi 1 x 2 i yi xi
La solucin a las ecuaciones normales anteriores:
0 y 1 x

n
x

i yi
n
i 1

i1
yi xi

n
i 1

x i
i 1

i 1

Donde los promedios para X y para Y son los siguientes::

1 n
y yi
n i 1

1 n
x xi
n i 1

Aplicando el mtodo de mnimos cuadrados del error, se obtiene el modelo que nos
da un valor estimado Y en funcin de X, denominado ecuacin de prediccin o de
regresin lineal, como sigue:
b0 0
b1 1
^

Y b0 b1 X

Donde:
X Y nXY
S
n

b1

xy

S xx

__ __

i i

i 1
n

X
i 1

__

2
i

__ 2

nX

__

b0 Y b1 X

por tanto:
^

__

__

Y Y b1 ( X X )

Cuando X X se tiene el punto ( X ,Y ) que se encuentra en la lnea ajustada y representa


el centro de gravedad de los datos.
__ __

__

Ejemplo 1.1 Se realizaron 25 observaciones de la variable Y y X


como sigue:
Y

10.98
11.13
12.51
8.4
9.27
8.73
6.36
8.5
7.82
9.14
8.24
12.19
11.88
9.57
10.94
9.58
10.09
8.11
6.83
8.88
7.68
8.47
8.86
10.36
11.08

35.3
29.7
30.8
58.8
61.4
71.3
74.4
76.7
70.7
57.5
46.4
28.9
28.1
39.1
46.8
48.5
59.3
70
70
74.5
72.1
58.1
44.6
33.4
28.6

Haciendo clculos con el paquete Minitab con X en la columna C2 y Y en la columna


C1 se tiene:
Regression Analysis: C1 versus C2

The regression equation is


C1 = 13.6 - 0.0798 C2
Predictor
Constant
C2
S = 0.8901

Coef
13.6230
-0.07983

SE Coef
0.5815
0.01052

R-Sq = 71.4%

T
23.43
-7.59

P
0.000
0.000

R-Sq(adj) = 70.2%

Por lo anterior la ecuacin de regresin obtenida es:


^

Y 13.6 0.0798 X

Despus de obtener esta ecuacin, surgen algunas preguntas:


- qu tan bien ajusta los datos esta ecuacin?
- el til el modelo para hacer predicciones?
- se viola alguna condicin como varianza constante y no correlacin en los
errores, de ser as que tan seria es?
Todo esto debe ser aclarado antes de usar el modelo.

Anlisis de Varianza
El anlisis de varianza es una herramienta que sirve para probar la adecuacin del
modelo de regresin, para lo cual es necesario calcular las sumas de cuadrados
correspondientes.
La desviacin estndar S corresponde a la raz cuadrada del valor de MSE o
cuadrado medio residual.
S2

SS E SYY b1 S XY

n2
n2

Donde:

SYY

Yi
2

Y
i

i 1

i 1

X Y

i 1

S XY X iYi

i 1

i 1

La expresin e Y Y es el residuo que expresa la diferencia entre el valor observado


y el valor estimado por la ecuacin de prediccin.
Donde:
^

__ ^ __

Yi Y i Yi Y (Y i Y )

Y
Yi
^
Yi
_
Y

ei
__

Yi Y

lnea ajustada
^

Y b0 b1 x

Xi
Errores involucrados en la recta de ajuste
La cantidad (Y Y ) es la desviacin de la observacin i-sima respecto a la media. Por
otra parte:
(Y Y ) (Y Y ) (Y Y )
__

__

__

Suma de cuadrados = Suma de cuadrados + Suma de cuadrados


respecto a la media
de la regresin
del error o residuos
De tal forma que la tabla de anlisis de varianza queda como:
Tabla de Anlisis de Varianza

Fuente
df
SS
MS = SS/df
Fc
MS REG
SSR b1 S XY
Regresin
1
MSreg/s2 =MSreg/MSE
SSE SSYY b1 S XY
Residual
n-2
S2=MSE=SSE/n-2
__________________________________________________________.
SYY
Total corregido
n-1
donde:
__

S XY2 ( ( X i X )Yi ) 2
__

__ 2

SXX ( Xi X )2 Xi2 n X

Obtenindose con el Minitab


Source
Regression
Residual Error
Total corrected

DF
1
23
24

SS
45.592
18.223
63.816

MS
45.592
0.792

F
57.54

P
0.000

El estadstico F se calcula como F = MSEREG / S2 y se compara con la F de tablas con


(1, n-2) grados de libertad y rea en 100(1-)%, para determinar si el parmetro 1 es
significativo que es el caso de Fcalc. > Ftablas.
En este caso Fc = 45.5924 / 0.7923 = 57.24 y F de tablas F(1, 23, 0.95) es igual a
4.28, por tanto se rechaza H0 aceptando que existe una ecuacin de regresin.
El rea de la cola de Fc est descrita por el valor de p que debe ser menor o igual al
valor de , en este caso es casi cero.

Intervalos de confianza para 0 , 1


En base al error estndar para los parmetros se tiene:

se(b1 )

__ 2

1 X
se(b0 ) MSE
n S XX

MSE

S XX

X i2

1/ 2

__

n ( X i X )
2

S
S XX

Del ejemplo, como s = 0.7963 y SXX = 7154.42


se(b1 )

0.792
0.0105
7154.42

El intervalo de confianza 100 (1 - )% para 0 , 1 , considerando que las


observaciones y los errores siguen un comportamiento normal, es:
Y Para el coeficiente o se tiene:

__ 2

1 X

n S XX

0 t a / 2 , n 2 MSE

X i2

1/ 2

b0 t ( n 2,1 )
__
2 n (X X
2
)
i

Para el caso del coeficiente Beta 1:


El error estndar es:
MSE
se(1)
SX
^

1 t a / 2 ,n 2

MSE
S XX

1
t(n21,).S
b 2
1_

X()

Suponiendo = 0.05, t(23,0.975) = 2.069, los lmites de


confianza para el parmetro 1 son:
-0.798 (2.069)(0.0105) o sea -0.798 0.0217
y 1 se encuentra en el intervalo (-0.1015, -0.0581).
Para el caso de sigma, si los errores estn distribuidos normalmente y son
independientes, la distribucin del estadstico,
( n 2) MSE / 2

es Chi-cuadrada con n 2 grados de libertad y de esta forma:

( n 2) MSE

P 12 / 2,n 2
2 / 2,n 2 1
2

Por consecuencia un intervalo de confianza 100 (1 - ) % en 2 es:


( n 2) MSE
( n 2) MSE
2
2
/ 2 ,n 2
12 / 2,n 2

Estimacin del intervalo para la media de la respuesta


Una aplicacin mayor del anlisis de regresin es la estimacin de la media de la
respuesta E(Y) para un valor particular de la variable regresora X. El valor esperado
de la respuesta Y media para un cierto valor de X = X 0 es:
^

EY(|X)0b1
Para obtener un intervalo de confianza con 100(1 - )% para el coeficiente 1 se
aplica la frmula siguiente:
^

Y0 ta / 2 ,n 2

MSE 1 ( x0 x )2

S XX n S xx

Ver grfica anterior del ejemplo.

Prediccin de nuevas observaciones


Esta es otra de las aplicaciones del modelo de regresin, predecir nuevas
observaciones Y correspondientes a un nivel especfico de la variable regresora X.
La banda de prediccin es ms ancha dado que depende tanto del error del modelo
de ajuste y el error asociado con observaciones futuras (Y0 Y0 ) . El intervalo es
mnimo en X X y se amplia conforme se incrementa la diferencia entre
La variable aleatoria,
Y0 Y0
__

__

X0 X .

Est normalmente distribuida con media cero y varianza:


__

1 ( X X )2
V ( ) 2 1 0
n
S XX

Si se usa Y0 para predecir a Y0 entonces el error estndar de = Y0 - Y0 , es el


estadstico apropiado para establecer un intervalo de prediccin probabilstico, en el
caso de un intervalo 100 (1 - ) % sobre una observacin futura en X 0 se tiene:

__
__

2
(
X

X
)
(
X

X
)2
1
1
0
0

Y0 t / 2,n 2 MSE 1
Y0 Y0 t / 2,n 2 MSE 1

n
S XX

n
S XX

Se puede generalizar para encontrar un intervalo de prediccin del 100(1-)


porciento para la media de m observaciones futuras en X = Xo. Sea Ymedia la media
de las observaciones futuras en X = Xo. El intervalo de prediccin estimado es:

__
__

1 1 ( X X )2
1 1 ( X X )2
Y0 t / 2,n2 MSE 0 Y0 Y0 t /2,n2 MSE 0
m n S XX
m n S XX

Pruebas de hiptesis para la pendiente e interseccin


Prueba de Hiptesis para Ho: 0 = 10 contra H1: 0 10
Calculando el estadstico t, considerando que 10 = 0, se tiene:
t

b0
se(b0 )

Probar la hiptesis para b0 no tiene inters prctico.


Ahora para probar la significancia de b1 se tiene:
t0

b1
MSE

para ( / 2, n 2) grados de libertad

S XX

Si t 0 t / 2 ,n 2 se rechaza la hiptesis nula, indicando que 1 es significativo y se


tiene regresin lineal.
Del ejemplo:
b1
0.798
t

7.60
se(b1 ) 0.0105
Como t 7.60 excede el valor crtico de t = 2.069, se rechaza
Ho (o sea el valor de p << 0.05) .Por tanto este coeficiente es
significativo.
Es importante notar que el valor de F = t2.
La salida del Minitab es como sigue:
Predictor
Coef
Constant = b0 13.6230
C2 = b1
-0.07983

SE Coef
0.5815
0.01052

T
23.43
-7.59

P
0.000
0.000

Inferencia simultanea para los parmetros del modelo


Para una estimacin conjunta de Beta0 y Beta1 en una regin donde estemos
seguros con 100(1-alfa) porciento de que ambos estimados son correctos es:
n

i 1

i 1

n( 0 0 ) 2 2 xi ( 0 0 )( 1 1 ) x 2 i ( 1 1 )
2 MSE

F , 2,n2

Estimacin simultanea de la respuesta media


La estimacin simultanea de la respuesta media es:

Es posible construir m-intervalos de confianza de la respuesta media de un conjunto


de m-valores especficos X, vgr. X1, X2, ., Xm, que tengan un coeficiente de
confianza conjunta de la menos 100(1-alfa) porciento.

Se puede utilizar el mdulo t de Scheff:


u , 2,n 2

Donde u , 2 ,n 2 es el punto de la cola superior alfa de la distribucin del valor mximo


absoluto de dos variables aleatorias t-student cada una basada en n-2 grados de
libertad. Estos dan intervalos ms cortos. Para el caso de alfa = 0.10, m=2,n=18 se
tiene de tablas (A.8):
t /( 2 m ),n2 t 0.025,18 2.101

u ,m ,n u0.10, 2,18 2.082

La Delta de Boferroni como sigue:


(2 F , 2 ,n2 )1 / 2 (2 F0.10, 2,18 )1 / 2 (6.02)1 / 2 2.454
^
1 (x x)2

E(Y X i ) YXi MSE i


n Sxx

Note que los intervalos del mximo mdulo t son ms angostos que los de
Bonferroni. Sin embargo cuando m > 2 los intervalos de mximo mdulo t se siguen
ampliando mientras que los de Bonferroni no dependen de m.

Prediccin de nuevas observaciones


El conjunto de intervalos de prediccin para m nuevas observaciones en los niveles
X1, X2,, Xm que tienen un nivel de confianza de al menos (1-alfa) es:
^

1 ( x x )2

y xi YXi MSE 1 i
n
S xx

Correlacin
La correlacin entre dos variables es - otra vez puesto en los trminos ms simples el grado de asociacin entre las mismas. Este es expresado por un nico valor
llamado coeficiente de correlacin (r), el cual puede tener valores que ocilan entre -1
y +1. Cuando r es negativo, ello significa que una variable (ya sea x o y) tiende a
decrecer cuando la otra aumenta (se trata entonces de una correlacin negativa,
correspondiente a un valor negativo de b en el anlisis de regresin). Cuando r es
positivo, en cambio, esto significa que una variable se incrementa al hacerse mayor
la otra (lo cual corresponde a un valor positivo de b en el anlisis de regresin).
Las discusiones anteriores de anlisis de regresin han asumido que X es una
variable controlable medida con un error despreciable y que Y es una variable
aleatoria. Muchas aplicaciones de anlisis de regresin involucran situaciones donde
tanto X como Y son variables aleatorias y los niveles de X no pueden ser
controlados. En este caso se asume que las observaciones (Xi, Yi), i=1, 2,,n son
variables aleatorias distribuidas conjuntamente. Por ejemplo suponiendo que se
desea establecer la relacin entre los refrescos vendidos y la temperatura del da. Se
asume que la distribucin conjunta de Y y X es la distribucin normal divariada, que
es:
2
2

y 2 x 2
y 1
x 2
1
1
1
2

2 p



f ( x, y )
exp
2
2 1 2
2
(
1

p
)

Donde 1 y 12 corresponden a la media y la varianza de Y, y 2 y 22 corresponden


a la media y la varianza de X y

E ( y 1 )( x 2 ) 12

1 2
1 2

Es el coeficiente de correlacin entre Y y X. 12 es la covarianzade Y y X.


La distribucin condicional de Y para un valor de X es:
f ( y x)

1 y x
1
0
1

exp
12
2 12
2

Donde:

0 1 2

1
2

212 12 (1 2 )
La correlacin es el grado de asociacin que existe las variables X y Y, se indica por
el estadstico cuyo estimador es el coeficiente de correlacin de la muestra r rxy.
Donde:
r

S XY
S XX SYY

S
b1 YY
S XX

1/ 2

Un estadstico til es el valor del ajuste de la regresin R2, coeficiente de


determinacin que se define como:
r = rxy = (signo de b1)R
R2

( SS .de.la.regresin . por.b0 )

( SSTotal .corregido. para.la.media)

(1.26)
^

__

(Y Y )
(Y Y )
__

SSR
SSE
1
Syy
SYY

(1.27)

Como Syy es una medida de la variabilidad en Y sin considerar el efecto de la


variable regresora X y SSE es una medida de la variabilidad en Y que queda
despus de que se ha considerado X, R 2 mide la proporcin de la variacin total
respecto a la media que es explicada por la regresin. Es frecuente expresarla en
porcentaje. Puede tomar valores entre 0 y 1, los valores cercanos a 1 implican que la
mayora de la variabilidad es explicada por el modelo de regresin.
En el ejemplo:
R-Sq = 71.4%

R-Sq(adj) = 70.2%

Se debe tener cuidado con la interpretacin de R2, ya que su magnitud tambin


depende del rango de variabilidad en la variable regresora. Generalmente se
incrementa conforme se incrementa la dispersin de X y decrece en caso contrario,
de esta forma un valor grande de R2 puede ser resultado de un rango de variacin
no realista de X o puede ser muy pequea debido a que el rango de X fue muy
pequeo y para permitir la deteccin de su relacin con Y.
Para probar la hiptesis H0: = 0 contra H1: 0, el estadstico apropiado de prueba
es:

t0

r n2
1 r2

que sigue una distribucin t con n-2 grados de libertad. Si t 0 t / 2 ,n 2 se rechaza la


hiptesis Ho, indicando que existe una correlacin significativa.
Por ejemplo si en un grupo de 25 observaciones se obtiene una r
= 0.9646 y se desea probar las Hiptesis:
Ho: = 0
H1: 0
Usando el estadstico de prueba to:
t0

0.9646 25 2
17.55
1 0.9305

como t0.025,23=2.069, se rechaza Ho indicando


correlacin significativa entre los datos.

que

hay

Para probar la hiptesis H0: = 0 contra H1: 0 , donde 0 no es cero y Si n 25


se utiliza el estadstico transformacin-z de Fisher:

Z arctanh ( r )

1 1 r
ln
2 1 r

Con media
Z arctanh ( )

y desviacin estndar
Z2

1
n3

En base a la frmula de la distribucin normal, se calcula el estadstico Zo siguiente


para probar la hiptesis Ho: = 0,
Z 0 ( arctanh ( r ) arctanh ( 0 )( n 3

y rechazar si

Z 0 Z / 2

Obtenindose

1 1 r
1 1 0
ln(
) ln(
)
2
1

r
2
1

z ( n 3)1 / 2

y el intervalo de confianza (100 - )% para est dado por:

Z
Z

tanh arctanhr / 2 tanh arctanhr / 2


n3
n3

Del ejemplo anterior, se


confianza del 95% para .

puede

construir

Siendo que arctanh r = arctanh0.9646 =

un

intervalo

de

2.0082, se tiene:

1.92
1.96

tanh 2.0082
tanh 2.0082

22
22

0.9202 0.9845.

Se simplifica a

Se requiere un anlisis adicional para determinar si la


ecuacin de la recta es un ajuste adecuado a los datos y si es
un buen predictor.
1 1 r
1

ln
z 1
2 1 r
2 n 3

1/ 2

1 1
ln
2 1

Otro ejemplo, si n=103, r=0.5,


intervalo de confianza es:

= 0.05. Se tiene que el

(1/2) ln 3 0.196 = (1/2)ln{(1+)/(1-)}


Por
tanto

se
encuentra
entre
(0.339,
Como se puede observar los puntos 5 y 6 exceden el lmite de dos sigmas.

0.632)

Bibliografa
1.
A. Agresti (1990). Categorical Data Analysis. John Wiley & Sons, Inc.
2.
A. Bhargava (1989). "Missing Observations and the Use of the Durbin-Watson
Statistic," Biometrik, 76, 828831.
3.
C.C. Brown (1982). "On a Goodness of Fit Test for the Logistic Model Based on Score
Statistics," Communications in Statistics, 11, 10871105.
4.
D.A. Burn and T.A. Ryan, Jr. (1983). "A Diagnostic Test for Lack of Fit in Regression
Models," ASA 1983 Proceedings of the Statistical Computing Section, 286290.
5.
M. Schatzoff, R. Tsao, and S. Fienberg (1968). "Efficient Calculation of All Possible
Regressions," Technometrics, 10, 769779.
6.
H. Wold (1975). "Soft Modeling by Latent Variables; the Nonlinear Iterative Partial
Least Squares Approach," in Perspectives in Probability and Statistics, Papers in Honour of
M.S. Bartlett, ed. J. Gani, Academic Press.

Вам также может понравиться