Академический Документы
Профессиональный Документы
Культура Документы
Introduccin
Regresin simple y correlacin
La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar
para solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar
alguna Relacin Funcional entre dos o ms variables, donde una variable depende
de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en
un modelo de Regresin Simple.
"Y es una funcin de X" Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la variable
dependiente y cul es la variable independiente.
En el Modelo de Regresin Simple se establece que Y es una funcin de slo una
variable independiente, razn por la cual se le denomina tambin Regresin
Divariada porque slo hay dos variables, una dependiente y otra independiente y se
representa as:
Y = f (X) "Y est regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. Tambin se le
llama regresando variable de respuesta.
La variable Independiente X se le denomina variable explicativa regresor y se le
utiliza para explicar y.
Expresndolo en forma simple, la regresin lineal es una tcnica que permite
cuantificar la relacin que puede ser observada cuando se grafica un diagrama de
puntos dispersos correspondientes a dos variables, cuya tendencia general es
rectilnea.
Parece que Sir Francis Galton (1822-1911) un antroplogo y metereolgo britnico
fue responsable de la introduccin de la palabra regresin, mostr que si Y =
estatura de los nios y X = estatura de los padres, una ecuacin de ajuste
2
adecuada era Y Y 3 ( X X ) . El artculo de Galton es fascinante como se cuenta en The
Story of the Statistics1, el mtodo de mnimos cuadrados aparentemente fue
descubierto por Carl Frederick Gauss (1777-1855) 2.
^
__
__
Prediccin y estimacin.
Control.
X
Diagrama de dispersin y recta de ajuste
El modelo de ajuste o modelo de regresin lineal es:
Y 0 1 X
E ( y | x ) 0 1 x
y su varianza es:
V ( y | x ) V ( 0 1 x ) 2
De esta forma la media de Y es una funcin lineal de X a pesar de que la varianza de
Y no dependa de los valores de X.
Estimacin de los parmetros por mnimos cuadrados
El mtodo de mnimos cuadrados se usa para estimar 0 y 1 se estimar 0 y 1
de manera que la suma de cuadrados de las diferencias entre la observaciones yi y
la lnea recta sea mnima. Los parmetros 0 y 1 son desconocidos y deben ser
estimados usando datos de una muestra. Supongamos que se tienen n pares de
datos (y1, x1), (y1, x1), (y2, x2),....., (yn, xn) de un experimento o por historia.
De la ecuacin modelo de regresin de la poblacin
Y 0 1 X
S ( 0 , 1 ) ( yi 0 1 xi ) 2
i 1
0 , 1
2 ( yi 0 1 xi ) 0
i 1
y
S
1
0 , 1
2 ( yi 0 1 xi ) xi 0
i 1
n 0 1 xi yi
i 1
i 1
i 1
i 1
i 1
0 xi 1 x 2 i yi xi
La solucin a las ecuaciones normales anteriores:
0 y 1 x
n
x
i yi
n
i 1
i1
yi xi
n
i 1
x i
i 1
i 1
1 n
y yi
n i 1
1 n
x xi
n i 1
Aplicando el mtodo de mnimos cuadrados del error, se obtiene el modelo que nos
da un valor estimado Y en funcin de X, denominado ecuacin de prediccin o de
regresin lineal, como sigue:
b0 0
b1 1
^
Y b0 b1 X
Donde:
X Y nXY
S
n
b1
xy
S xx
__ __
i i
i 1
n
X
i 1
__
2
i
__ 2
nX
__
b0 Y b1 X
por tanto:
^
__
__
Y Y b1 ( X X )
__
10.98
11.13
12.51
8.4
9.27
8.73
6.36
8.5
7.82
9.14
8.24
12.19
11.88
9.57
10.94
9.58
10.09
8.11
6.83
8.88
7.68
8.47
8.86
10.36
11.08
35.3
29.7
30.8
58.8
61.4
71.3
74.4
76.7
70.7
57.5
46.4
28.9
28.1
39.1
46.8
48.5
59.3
70
70
74.5
72.1
58.1
44.6
33.4
28.6
Coef
13.6230
-0.07983
SE Coef
0.5815
0.01052
R-Sq = 71.4%
T
23.43
-7.59
P
0.000
0.000
R-Sq(adj) = 70.2%
Y 13.6 0.0798 X
Anlisis de Varianza
El anlisis de varianza es una herramienta que sirve para probar la adecuacin del
modelo de regresin, para lo cual es necesario calcular las sumas de cuadrados
correspondientes.
La desviacin estndar S corresponde a la raz cuadrada del valor de MSE o
cuadrado medio residual.
S2
SS E SYY b1 S XY
n2
n2
Donde:
SYY
Yi
2
Y
i
i 1
i 1
X Y
i 1
S XY X iYi
i 1
i 1
__ ^ __
Yi Y i Yi Y (Y i Y )
Y
Yi
^
Yi
_
Y
ei
__
Yi Y
lnea ajustada
^
Y b0 b1 x
Xi
Errores involucrados en la recta de ajuste
La cantidad (Y Y ) es la desviacin de la observacin i-sima respecto a la media. Por
otra parte:
(Y Y ) (Y Y ) (Y Y )
__
__
__
Fuente
df
SS
MS = SS/df
Fc
MS REG
SSR b1 S XY
Regresin
1
MSreg/s2 =MSreg/MSE
SSE SSYY b1 S XY
Residual
n-2
S2=MSE=SSE/n-2
__________________________________________________________.
SYY
Total corregido
n-1
donde:
__
S XY2 ( ( X i X )Yi ) 2
__
__ 2
SXX ( Xi X )2 Xi2 n X
DF
1
23
24
SS
45.592
18.223
63.816
MS
45.592
0.792
F
57.54
P
0.000
se(b1 )
__ 2
1 X
se(b0 ) MSE
n S XX
MSE
S XX
X i2
1/ 2
__
n ( X i X )
2
S
S XX
0.792
0.0105
7154.42
__ 2
1 X
n S XX
0 t a / 2 , n 2 MSE
X i2
1/ 2
b0 t ( n 2,1 )
__
2 n (X X
2
)
i
1 t a / 2 ,n 2
MSE
S XX
1
t(n21,).S
b 2
1_
X()
( n 2) MSE
P 12 / 2,n 2
2 / 2,n 2 1
2
EY(|X)0b1
Para obtener un intervalo de confianza con 100(1 - )% para el coeficiente 1 se
aplica la frmula siguiente:
^
Y0 ta / 2 ,n 2
MSE 1 ( x0 x )2
S XX n S xx
__
X0 X .
1 ( X X )2
V ( ) 2 1 0
n
S XX
__
__
2
(
X
X
)
(
X
X
)2
1
1
0
0
Y0 t / 2,n 2 MSE 1
Y0 Y0 t / 2,n 2 MSE 1
n
S XX
n
S XX
__
__
1 1 ( X X )2
1 1 ( X X )2
Y0 t / 2,n2 MSE 0 Y0 Y0 t /2,n2 MSE 0
m n S XX
m n S XX
b0
se(b0 )
b1
MSE
S XX
7.60
se(b1 ) 0.0105
Como t 7.60 excede el valor crtico de t = 2.069, se rechaza
Ho (o sea el valor de p << 0.05) .Por tanto este coeficiente es
significativo.
Es importante notar que el valor de F = t2.
La salida del Minitab es como sigue:
Predictor
Coef
Constant = b0 13.6230
C2 = b1
-0.07983
SE Coef
0.5815
0.01052
T
23.43
-7.59
P
0.000
0.000
i 1
i 1
n( 0 0 ) 2 2 xi ( 0 0 )( 1 1 ) x 2 i ( 1 1 )
2 MSE
F , 2,n2
Note que los intervalos del mximo mdulo t son ms angostos que los de
Bonferroni. Sin embargo cuando m > 2 los intervalos de mximo mdulo t se siguen
ampliando mientras que los de Bonferroni no dependen de m.
1 ( x x )2
y xi YXi MSE 1 i
n
S xx
Correlacin
La correlacin entre dos variables es - otra vez puesto en los trminos ms simples el grado de asociacin entre las mismas. Este es expresado por un nico valor
llamado coeficiente de correlacin (r), el cual puede tener valores que ocilan entre -1
y +1. Cuando r es negativo, ello significa que una variable (ya sea x o y) tiende a
decrecer cuando la otra aumenta (se trata entonces de una correlacin negativa,
correspondiente a un valor negativo de b en el anlisis de regresin). Cuando r es
positivo, en cambio, esto significa que una variable se incrementa al hacerse mayor
la otra (lo cual corresponde a un valor positivo de b en el anlisis de regresin).
Las discusiones anteriores de anlisis de regresin han asumido que X es una
variable controlable medida con un error despreciable y que Y es una variable
aleatoria. Muchas aplicaciones de anlisis de regresin involucran situaciones donde
tanto X como Y son variables aleatorias y los niveles de X no pueden ser
controlados. En este caso se asume que las observaciones (Xi, Yi), i=1, 2,,n son
variables aleatorias distribuidas conjuntamente. Por ejemplo suponiendo que se
desea establecer la relacin entre los refrescos vendidos y la temperatura del da. Se
asume que la distribucin conjunta de Y y X es la distribucin normal divariada, que
es:
2
2
y 2 x 2
y 1
x 2
1
1
1
2
2 p
f ( x, y )
exp
2
2 1 2
2
(
1
p
)
E ( y 1 )( x 2 ) 12
1 2
1 2
1 y x
1
0
1
exp
12
2 12
2
Donde:
0 1 2
1
2
212 12 (1 2 )
La correlacin es el grado de asociacin que existe las variables X y Y, se indica por
el estadstico cuyo estimador es el coeficiente de correlacin de la muestra r rxy.
Donde:
r
S XY
S XX SYY
S
b1 YY
S XX
1/ 2
( SS .de.la.regresin . por.b0 )
(1.26)
^
__
(Y Y )
(Y Y )
__
SSR
SSE
1
Syy
SYY
(1.27)
R-Sq(adj) = 70.2%
t0
r n2
1 r2
0.9646 25 2
17.55
1 0.9305
que
hay
Z arctanh ( r )
1 1 r
ln
2 1 r
Con media
Z arctanh ( )
y desviacin estndar
Z2
1
n3
y rechazar si
Z 0 Z / 2
Obtenindose
1 1 r
1 1 0
ln(
) ln(
)
2
1
r
2
1
z ( n 3)1 / 2
Z
Z
puede
construir
un
intervalo
de
2.0082, se tiene:
1.92
1.96
tanh 2.0082
tanh 2.0082
22
22
0.9202 0.9845.
Se simplifica a
ln
z 1
2 1 r
2 n 3
1/ 2
1 1
ln
2 1
se
encuentra
entre
(0.339,
Como se puede observar los puntos 5 y 6 exceden el lmite de dos sigmas.
0.632)
Bibliografa
1.
A. Agresti (1990). Categorical Data Analysis. John Wiley & Sons, Inc.
2.
A. Bhargava (1989). "Missing Observations and the Use of the Durbin-Watson
Statistic," Biometrik, 76, 828831.
3.
C.C. Brown (1982). "On a Goodness of Fit Test for the Logistic Model Based on Score
Statistics," Communications in Statistics, 11, 10871105.
4.
D.A. Burn and T.A. Ryan, Jr. (1983). "A Diagnostic Test for Lack of Fit in Regression
Models," ASA 1983 Proceedings of the Statistical Computing Section, 286290.
5.
M. Schatzoff, R. Tsao, and S. Fienberg (1968). "Efficient Calculation of All Possible
Regressions," Technometrics, 10, 769779.
6.
H. Wold (1975). "Soft Modeling by Latent Variables; the Nonlinear Iterative Partial
Least Squares Approach," in Perspectives in Probability and Statistics, Papers in Honour of
M.S. Bartlett, ed. J. Gani, Academic Press.