Вы находитесь на странице: 1из 24

Regresin mltiple

Demostraciones
Elisa M Molanes Lpez

El modelo de regresin mltiple


El modelo que se plantea en regresin mltiple es el siguiente:

yi = 0 + 1 x1i + 2 x2i + . . . + k xki + ui


donde

x1 , x2 , . . . , xk son las variables independientes o explicativas.

La variable respuesta depende de las variables explicativas y de una componente de error que se distribuye segn una normal: ui = N (0, 2 ) El ajuste del modelo se realiza por el mtodo de mxima verosimilitud o el mtodo de mnimos cuadrados. En el caso de distribucin normal de errores, ambos mtodos coinciden, como ya se vi en regresin simple.

El modelo de regresin mltiple


El valor que el modelo estimado predice para la observacin i-sima es:

0 + 1 x1i + 2 x2i + . . . + k xki y i =


y el error cometido en esa prediccin es:

1 x1i + 2 x2i + . . . k xki ) 0 + ei = yi y i = yi (


donde

1 , . . . , k 0 ,

son los valores estimados del modelo.

1 , . . . , k el valor que 0 , El criterio de mnimos cuadrados asigna a minimiza la suma de errores al cuadrado de todas las observaciones.

Notacin
Y = y1 y2 . . . yn Y = y 1 y 2 . . . y n = 0 1 . . . k 0 1 = . . . k e= e1 e2 . . . en

X es la denominada matriz de diseo, de dimensin n x (k+1)

X=

1 1 . . .

x11 x12 . . .

x21 x22 . . . x2n

.. .

xk1 xk2 . . . xkn

1 x1n

= ~ ~ 1, X ~ 2, . . . , X ~ k , siendo X ~j = 1, X

xj 1 xj 2 . . . xjn

Forma matricial del modelo


La expresin matricial del modelo de regresin mltiple es la siguiente:

Y = X + U
El modelo estimado tambin puede expresarse en forma matricial:

= X Y
=e Y Y

Ajuste por mnimos cuadrados


0 + 1 x1i + 2 x2i + . . . k xki ) ei = yi y i = yi (

Son los parmetros estimados del modelo

Como en regresin simple, el criterio de mnimos cuadrados asigna a los parmetros del modelo el valor que minimiza la suma de errores al cuadrado de todas las observaciones. La suma de errores al cuadrado es S:

S=

Pn

2 i=1 ei

Pn

2 i=1 yi (0 + 1 x1i + 2 x2i + . . . + k xki )

Ajuste por mnimos cuadrados


Al igual que en regresin simple, la estrategia que seguimos para calcular el mnimo de S es: derivar S con respecto a los parmetros, igualar a cero cada derivada, y resolver el sistema de ecuaciones que resulta (y en el que las incgnitas vienen dadas por los k+1 parmetros que queremos estimar). Teniendo en cuenta que:
Denota traspuesta de una matriz xT a a

=x

aT Xa a

= 2Xa
Es una matriz simtrica, de dimensin (k+1)x(k+1)

En trminos matriciales, resulta que:

= X T Y X T Y + 2(X T X ) Su rango debe ser mximo para ser invertible, es decir: T T X Y = (X X ) rango(X T X ) = k + 1
As que,

= (X T X )1 X T Y

Ajuste por mnimos cuadrados


Que el rango(X T X ) = k + 1 es equivalente a pedir que ninguna de las variables explicativas se pueda escribir como combinacin lineal de las dems. Son las ecuaciones normales de la regresin

= 2X T Y + 2(X T X ) = ~ 0
Los errores de prediccin suman cero La covarianza entre los errores de prediccin y cada variable explicativa es cero

De ellas se deduce que:

Pn

Pn

i=1 ei = 0

i=1 ei xij

= 0 , j = 1, . . . , k

Ajuste por mnimos cuadrados


Al igual que en regresin simple, ahora necesitamos estimar la varianza, 2 , del error aleatorio U Un estimador razonable es, en principio, la varianza de los errores de prediccin (tambin conocidos con el nombre de residuos del modelo):

Pn 2 1 T 1 = n e e = n i=1 ei Sin embargo, este estimador es sesgado para 2, lo que significa que:
2

E ( 2 ) = 2

El sesgo se define como la diferencia entre la media del estimador y el verdadero valor del parmetro que se quiere estimar. Usaremos, por tanto, la varianza residual para estimar 2, que s es un estimador 2 insesgado de 2 , es decir, centrado en torno a

s 2 R

1 n(k+1)

Pn

2 e i=1 i

Relaciones entre las variables


= (X T X )1 X T Y = X (X T X )1 X T Y = HY = X Y
A esta matriz le vamos a llamar H y se le conoce con el nombre de matriz de proyeccin. Este nombre quedar justificado una vez veamos la interpretacin geomtrica de la estimacin. Las propiedades de la matriz H son las siguientes: Es idempotente: HH = H Es simtrica: HT = H Tiene el mismo rango que X: (k+1)

Relaciones entre las variables


Es sencillo ver que el error de prediccin se puede escribir en forma matricial en trminos de H

= Y HY = (I H )Y e=Y Y

= HY , indica que la matriz H (la cual es idempotente), La expresin Y transforma el vector de observaciones Y en el vector de valores ajustados (o predicciones) Y
Una matriz idempotente realiza una proyeccin, por lo que la regresin va a ser una proyeccin. Para entender mejor cmo es esa proyeccin, vamos a estudiar las . relaciones existentes entre e, Y e Y

Relaciones entre las variables


El vector de residuos es perpendicular al vector de valores ajustados y a la matriz de diseo. Vemoslo:

eY = [(I H )Y ]T HY = Y T (I H )HY = Y T HY Y T HHY = 0 eT Y eX

eT X = [(I H )Y ]T X = Y T (I H )X = Y T (X X (X T X )1 X T X ) = 0 = HY proyecta el vector de observaciones sobre As que el modelo de regresin Y el subespacio vectorial de las columnas de la matriz X (es decir el subespacio de las variables independientes). El vector de residuos es perpendicular a cada columna de X y al vector de prediccin Y

Interpretacin geomtrica
En el espacio formado por las variables, el mtodo de mnimos cuadrados equivale a encontrar un vector en dicho espacio que est lo ms prximo posible al vector de observaciones.

es la proyeccin ortogonal de Y sobre dicho espacio Y

Vector de observaciones Y

e Vector de residuos

Esp(X )

Y
Vector de valores ajustados. Est en Esp(X)

Subespacio vectorial generado por la columnas de X. Es decir, por los vectores columna de las variables explicativas

Distribucin de
= (X T X )1 X T Y
Le llamaremos matriz A

Sabemos que el vector de observaciones Y se distribuye segn una normal multivariante de media X y de matriz de varianzas covarianzas 2 In

Y Nn (X , 2 In ) es una combinacin lineal de las componentes del vector Y , as que tambin se distribuye segn una variable aleatoria normal.
A continuacin, calcularemos su media y matriz de varianzas y covarianzas

Distribucin de
T 1 T E = E (X X ) X Y = (X T X )1 X T E (Y ) = (X T X )1 X T X = es un estimador centrado de ) = V ar(AY ) = A V ar(Y ) AT = (X T X )1 X T V ar(Y )X (X T X )1 V ar( = (X T X )1 X T 2 X (X T X )1 = 2 (X T X )1 Nk+1 ( , 2 (X T X )1 ) i N (i , 2 qii ) qii es el elemento i-simo de la diagonal de la matriz (X T X )1

Distribucin de
2 La estimacin de la hacamos a travs de la varianza residual

s 2 R

1 n(k+1)

i N (i , 2 qii ) mediante s 2 De manera que, estimaremos la varianza de R qii


La raz cuadrada de s 2 R qii

Pn

2 e i=1 i

i nos da el error estndar de p s 2 q = s R qii R ii 2 nk1

i ) = SE (
Se puede demostrar que:

(nk1) s2 R 2

Contraste t
i N (i , 2 qii ) Hemos visto que: . Por tanto, estandarizando, se obtiene que:
i i qii

N (0, 1)
N (0,1) = 1 2
k k

Una variable t de Student con k grados de libertad se define as: tk

t=

i i qii (nk1) s2 1 R nk1 2

i i s R qii

tnk1

El valor de t va a contrastar si i = 0 , (hipteis nula, H0) frente a la hiptesis alternativa ( i = 0 ), es decir si el valor de este parmetro en la poblacin es realmente cero o no. De ser cierta esta hiptesis, entonces la variable Xi no influira sobra la variable respuesta Y.

Contraste t
Sabemos que: t =
i i s R qii

tnk1

Ahora, bajo la hiptesis nula (H0), sabemos que i = 0

t=

i s R qii

i 1 ) SE (

tnk1 bajo H0

As que, si se cumple H0, el valor de t debe provenir de una tn-k-1. Para n>30 la distribucin tn-k-1 deja una probabilidad del 95% en el intervalo [-2,2].

Si |t|>2, se rechaza la hiptesis nula y diremos que la variable i-sima influye en la respuesta.

Intervalos de confianza
Sabemos que: t =
i i i ) SE (

tnk1

As que, podemos afirmar que:

P (t/2

i i i ) SE (

t/2 ) = 1

i t/2 SE ( i ) i i + t/2 SE ( i )) = 1 P ( i t/2 SE ( i ) Con confianza 1 , i

i 2SE ( i ) Cuando n>30 y = 0.05 el intervalo se convierte en: i

Descomposicin de variabilidad
Vamos a comenzar descomponiendo la variabilidad total de Y:

VT =

yi = y i + ei (yi y )2 = (( yi y ) + ei )2 = ( yi y )2 + e2 yi y )ei i + 2( VT = Pn
i=1 (yi

Pn

i=1 (yi

y )2

y ) =

Pn

yi i=1 (

y ) +

Pn

2 i=1 ei

Pn

i=1

2( yi y )ei

V T = V E + V NE

Por las ecuaciones normales, este trmino vale cero.

Coef. de determinacin y coef. de determinacin corregido por g.l.


R =
2 VE VT

R2 x100 proporciona el porcentaje de variabilidad de Y que explica el modelo de regresin ajustado.

El coef. de determinacin as definido presenta el inconveniente de que al incluir nuevas variables en el modelo aumenta su valor, incluso cuando stas no resultan significativas. Este problema hace que R2 no sea un vlido como criterio para decidir qu variables explicativas deben ser incluidas o excluidas en el modelo final. Definimos, el coef. de determinacin corregido por grados de libertad para evitar este problema

2 = 1 (1 R2 ) n1 = 1 ( V N E ) n1 = 1 R nk1 VT nk1

V N E/(nk1) V T /(n1)

Contraste de regresin F
Este contraste, sirve en regresin mltiple para comprobar si el modelo explica una parte significativa de la variabilidad de Y Se puede demostrar que si 1 = 2 = . . . = k = 0 el cociente
V E/k V N E/nk1

Pn i y )2 i=1 (y Pn k 2 e i=1 i nk1

Fk,nk1

se distribuye segn una distribucin F de Snedecor con (k, n-k-1) g.l.

Tabla ANOVA
En dicha tabla se descompone la variabilidad de la respuesta en funcin de la variabilidad explicada y no explicada por la regresin ajustada. Tambin se obtiene el valor del estadstico de contraste F
Cuadrado medio = SC/g.l. Fuentes de variacin Explicada por los regresores VE Residual VNE Suma de Cuadrados (SC) Grados de Varianza Libertad (cuadrado medio) (g.l)

Test F

Pn Pn

2 ( y y ) i i=1

k n-k-1 n-1

s 2 e
s 2 R
2 y S

s 2 e s 2 R

2 ( y y ) i i i=1

Total

Pn

)2 i=1 (yi y

Contraste de regresin F
H0 : 1 = 2 = . . . = k = 0 H1 : j = 0
para al menos un j

No rechazo Rechazo
Fk,nk1 =

s 2 e s 2 R

Вам также может понравиться