Академический Документы
Профессиональный Документы
Культура Документы
= =
+
= =
+
0 2
0 2
i
i
i i
i
i i
x bx a y
b
bx a y
a
c
c
c
c
Que nos dar un sistema de dos ecuaciones normales y dos incgnitas (a, b).
Resolviendo el sistema:
( )
2
2
2 2
2
2
2
x
xy
x xy
i
i
i
i i
i i
i i
i
i
i
i i
i i
i i
i
i i
i
i
i
i
i i
i i
i
i i
i i i
i i
S
S
b bS S
x n x b x n y y x
x b x n x b x
n
y
y x
x b x x b y y x
x b y a x b y na
x b x a y x
x b a y
= =
|
.
|
\
|
=
+ =
+ =
= + =
+ =
+ =
Y obtenemos que la recta de regresin de Y sobre X es y = a + bx con los
valores a y b anteriormente calculados, o bien la siguiente expresin:
( )
y y
S
S
x x
xy
x
=
2
Que sera la misma recta pero expresada en punto pendiente. A la pendiente b de
la recta de regresin de Y sobre X se le denomina coeficiente de regresin de Y sobre
X.
RECTA DE REGRESI N DE X SOBRE Y
Aplicando el mismo razonamiento llegaramos a la expresin de la recta de
regresin de X sobre Y x = a + by con
( )
b
S
S
y a x b y
o bien
x x
S
S
y y
xy
y
xy
y
' ' '
:
= =
=
2
2
Igualmente a la pendiente b de la recta de regresin de X sobre Y se le
denomina coeficiente de regresin de X sobre Y.
NOTA: Hay que tener en cuenta que la recta de regresin de X sobre Y no se
obtiene despejando X de la recta de regresin de Y sobre X.
PROPIEDADES:
1. Estas dos rectas se cortan en el punto (x,y) que se denomina centro de
gravedad de la distribucin conjunta.
2. Tanto el signo de b como el de b ser el signo de la covarianza (pues las
varianzas son siempre positivas). Una covarianza positiva nos dar dos coeficientes de
regresin positivos y sus correspondientes rectas de regresin crecientes. Si la
covarianza es negativa, las dos rectas de regresin sern decrecientes al ser negativas
sus pendientes. En caso de que la covarianza valga cero, las rectas de regresin sern
paralelas a los ejes coordenados y perpendiculares entre s.
MEDIDAS DE BONDAD DE AJUSTE: Anlisis de la varianza
VARI ACI N RESI DUAL
Para cada valor x
i
de X, obtenamos una diferencia (el residuo) entre el valor
observado de Y en la nube de puntos y el correspondiente valor terico obtenido en la
funcin. Si todos los puntos de la nube estn en la funcin, la dependencia ser
funcional; el grado de dependencia ser el mximo posible. Cuanto ms se alejen los
puntos observados de la funcin (mayores sean los residuos) iremos perdiendo
intensidad en la dependencia.
Se define la variacin residual o variacin no explicada por la regresin como
la suma de los cuadrados de los residuos.
( ) ( ) ( )
= = =
i
i
i
i i
i
i i
e x b a y y y VNE
2
2
2
Si la variacin residual es grande los residuos sern grandes y la dependencia
ser pequea, el ajuste ser malo.
Si la variacin residual es pequea (cerca de cero), la dependencia ser grande,
el ajuste ser bueno.
Se define la varianza residual como la variacin residual dividida entre sus
grados de libertad n-2; este cantidad se denota por
2
R
S y es la estimacin de la varianza
de la varianza de los residuos.
R
S se denomina error estndar de la regresin
VARI ACI N DEBI DA A LA REGRESI N
Nos sirve para ver en qu medida mejora la descripcin de una variable a travs
de la otra. Llamaremos variacin debida a la regresin o variacin explicada a la
suma de los cuadrados de las desviaciones de los valores tericos a la media.
( )
=
i
i
y y VE
2
VARIACIN TOTAL
La variacin total es la suma de los cuadrados de las desviaciones de los
valores observados a la media
( )
=
i
i
y y VT
2
Se demuestra que VT = VE + VNE
Es decir, la variacin total de la variable Y es la suma de dos variaciones:
la de la variable Y
\
|
= = =
COEFICIENTE DE CORRELACIN
Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relacin
lineal que hay entre ambas variables es el coeficiente de correlacin definido por
) ( ) (
) , (
Y X
Y X COV
o o
=
Donde (X) y (Y) representan las desviaciones tpicas de las variables X e Y.
) ( ) ( ) ( ) , ( Y E X E XY E Y X Cov =
Un buen estimador de este parmetro es el coeficiente de correlacin lineal
muestral (o coeficiente de correlacin de Pearson), definido por
Y X
XY
S S
S
r= Y X y x
n
S
n
i
i i XY
=
=1
1
Se comprueba que r = signo( b
) R
Por tanto, re[-1,1]. Este coeficiente es una buena medida de la bondad del ajuste
de la recta de regresin. Evidentemente, existe una estrecha relacin entre r y b
aunque estos estimadores proporcionan diferentes interpretaciones del modelo:
r es una medida de la relacin lineal entre las variables X e Y.
b
= 0 r =0
Es importante estudiar si r es significativo (distinto de cero) ya que ello implica
que el modelo de regresin lineal es significativo. Desafortunadamente la distribucin
de r es complicada pero para tamaos muestrales mayores que 30 su desviacin tpica es
n
r
1
) ( ~ o y puede utilizarse la siguiente regla >
n
r
2
r significativo
En la interpretacin del coeficiente de correlacin se debe tener en cuenta que:
r = 1 indica una relacin lineal exacta positiva (creciente) o negativa
(decreciente),
r = 0 indica la no existencia de relacin lineal estocstica, pero no indica
independencia de las variables ya que puede existir una relacin no lineal
incluso exacta,
Valores intermedios de r (0 < r < 1 -1 < r < 0) indican la existencia de una
relacin lineal estocstica, ms fuerte cuanto ms prximo a +1 ( -1) sea el
valor de r.
PREDICCIN
El objetivo ltimo de la regresin es la prediccin de una variable para un valor
determinado de la otra. La prediccin de Y para X = x
0
ser simplemente el valor
obtenido en la recta de regresin de Y sobre X al sustituir el valor de x por x
0.
Es claro que la fiabilidad de esta prediccin ser tanto mayor cuando
mayor sea la correlacin entre las variables (es decir mayor sea R cuadrado o r ).
INTERVALOS DE CONFIANZA PARA LOS PARMETROS
El estimador b
2
2
X
nS
b N b
o
Por tanto la V ar( b
)
- disminuye al aumentar n,
- disminuye al aumentar s
x
2
- disminuye al disminuir
2
.
El estimador a indica el valor de la ordenada en la recta de regresin estimada
para x = 0 tiene menor importancia y, en muchos casos, no tiene una interpretacin
prctica.
La distribucin de a es una normal de media a y varianza
|
|
.
|
\
|
+
2
2 2
1
X
nS
X
n
o
Esto es,
) 1 , (
2
2 2
|
|
.
|
\
|
+
X
nS
X
n
a N a
o
Por tanto la V ar ( a )
- disminuye al aumentar n,
- disminuye al aumentar s
x
2
- disminuye al disminuir
2
.
- disminuye al disminuir
2
.
2
R
S es el estadstico que se utiliza como estimador de la varianza de los residuos.
2
2
=
n
VNE
S
R
Nuevamente, utilizando las hiptesis de normalidad e independencia se obtiene
que la distribucin de este estadstico es
2
2
2
2
) 2 (
n
R
S n
o
Conociendo las distribuciones de estos estadsticos podemos hallar intervalos de
confianza y realizar contrastes de hiptesis para los parmetros
Teniendo en cuenta que
2
es desconocida y hay que estimarla, la distribucin de
b
n x
R
T n S
S
b b
As un intervalo de confianza para b a un nivel de confianza 1 - o viene dado
por
2 , 2 /
n
X
R
t
n S
S
b
o
De forma anloga se puede obtener un intervalo de confianza del parmetro a.
2
2
2
1
1
|
|
.
|
\
|
+
n
X
R
T
S
X
n
S
a a
2 , 2 /
2
2
1
1
|
|
.
|
\
|
+
n
X
R
t
S
X
n
S a
o
Los estadsticos a y b
y, en
algunas situaciones, no tiene una interpretacin realista si el cero no es un punto del
rango de la X, por ejemplo, al estudiar la relacin entre las variables peso y altura de un
colectivo de personas. Por ello tiene inters la ecuacin de la recta de regresin que
utiliza solo el parmetro b. Esta ecuacin es la siguiente
i i i
x x b y y c + = ) (
o bien,
) ( x x b y y
i i
=
INTERPRETACIN GEOMTRICA
Considrense los siguientes vectores del espacio n-dimensional R
n
) ,..., , (
2 1 n
y y y Y =
Vector de 1
)` ,..., , (
2 1 n
x x x X =
2 1 n
y y y Y = Vector de las predicciones
Y Y e e e e
n
)` ,..., , (
2 1
= =
+ + = X b a Y 1
El mtodo de estimacin por mnimos cuadrados tiene la siguiente interpretacin
geomtrica:
El vector de predicciones Y
en el plano
que generan los vectores X
y 1
.
De esta forma el vector de residuos e
es de mdulo mnimo
=
=
n
i
i
e e
1
2 2
. Por
tanto, el vector de residuos e
y 1
.
Y, en particular, es ortogonal a estos dos vectores, esto es,
0 0 1
1 1
= = = =
= =
n
i
i i
t
n
i
i
t
x e X e e e
Del teorema de Pitgoras se deduce que Y
y e
CONTRASTES SOBRE LOS PARAMETROS DEL MODELO
Es de gran inters el siguiente contraste
0 :
0 :
1
0
=
=
b H
b H
ya que aceptar H
0
implica que la recta de regresin es Y
i
= a +
i
, por tanto, no
existe relacin lineal entre las variables X e Y .
Utilizando la distribucin deb
si H
0
es cierto, se sigue que
2
n x
R
T n S
S
b b
El estadstico
2 0
=
n x
R
T n S
S
b
T , por tanto
la regin crtica es
2 , 2 / 0
>
n
t T
o
El p - valor del contraste es P(|T
n-2
|>|t
0
|)
Este contraste se denomina contraste de regresin
De la misma forma se puede hacer el contraste
0 :
0 :
1
0
=
=
a H
a H
Aunque este contraste tiene menor inters por su escaso significado. En este
caso, si H
0
es cierto, se verifica que
2
2
2
0
1
1
|
|
.
|
\
|
+
=
n
X
R
T
S
X
n
S
a
T
Y se calcula la regin crtica y el p-valor igual que antes
TABLA ANOVA. El contraste de regresin.
Supongamos que queremos realizar el siguiente contraste de hiptesis,
H
0
: E(Y/X=x)=a (es constante, no depende de x)
Frente a la alternativa
H
1
: E(Y/X=x)=a +bx (el modelo lineal es significativo )
Por tanto, si se acepta H
0
, la variable regresora no influye y no hay relacin
lineal entre ambas variables. En caso contrario, si existe una dependencia lineal de la
variable respuesta respecto a la regresora. Teniendo en cuenta la descomposicin de la
variabilidad de los datos
VT = VE + VNE
( )
i
i i
y y
2
= ( )
i
i
y y
2
+ ( )
i
i i
y y
2
Podemos confeccionar la siguiente tabla
Tabla anova del modelo de regresin simple
variacin Suma de cuadrados Grados de libertad Varianzas Valor F
regresin
( )
=
i
i
y y VE
2
1 VE
2
R
S
VE
residual
( ) ( )
= =
i
i
i
i i
e y y VNE
2 2
n-2
2
R
S
total
( )
=
i
i i
y y VT
2
n-1
2
Y
S
Si H
0
es cierta (la variable X no influye), la recta de regresin es
aproximadamente horizontal y se verifica que aproximadamente y y
i
~ y por tanto
VE~ 0. Pero VE es una medida con dimensiones y no puede utilizarse como medida de
discrepancia, para resolver este inconveniente se divide por la varianza residual y como
estadstico del contraste de regresin se utiliza el siguiente
2
0
R
S
VE
F =
Por la hiptesis de normalidad y bajo H
0
se deduce que el estadstico
F
0
sigue
una distribucin F con 1 y n - 2 grados de libertad. La regin crtica es { }
2 , 1 , 0
>
n
f F
o
Y el p - valor viene dado por P(F
1,n-2
> f
0
)