Вы находитесь на странице: 1из 22

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

REGRESIN LINEAL MLTIPLE


1.

Definicin

Considere el caso en el cual se desea modelar la variabilidad total de una variable respuesta de inters, en funcin de
relaciones lineales con dos o ms variables predictoras, formuladas simultneamente en un nico modelo. Suponemos en
principio que las variables predictoras guardan poca asociacin lineal entre s, es decir, cada variable predictora aporta
informacin independiente de las dems predictoras presentes en el modelo (hasta cierto grado, la informacin aportada por
cada una no es redundante). La ecuacin del modelo de regresin en este caso es:
Yi = 0 + 1 X i1 + 2 X i 2 + + k X ik + i

Este modelo es de primer orden ya que no se presentan efectos de interaccin entre las variables predictoras, donde:
 0 , 1, , k Son los parmetros del modelo


X i1 , X i 2 , , X ik , son los valores en la j-sima observacin muestral, de las variables predictoras consideradas en
el modelo.
iid

 i ~ N 0 , 2

Estadsticamente, se establece que la respuesta media est dada por

E ( Y | X 1 , X 2 , , X k ) = 0 + 1 X 1 + 2 X 2 + + k X k

la cual representa un hiperplano en un espacio de dimensin k+1, llamado superficie de regresin o superficie de
respuesta.

Similar al modelo de regresin lineal simple, bajo los supuestos de normalidad, independencia y varianza constante de los

errores, se tiene que Yi | X i1 , X i 2 , , X ik ~ N 0 + 1 X i1 + 2 X i 2 + + k X ik , 2 e independientes.

2.

Significado de los coeficientes de regresin en el modelo lineal general

El parmetro 0 , el intercepto Y del plano, representar la respuesta media de Y cuando en el conjunto de observaciones se
incluye la coordenada ( X1 , X 2 , , X k ) = ( 0 , 0 , , 0 ) , de lo contrario si tal coordenada no es observada, entonces 0 no
1

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

ser interpretable. Los parmetros j , j=1, 2, , k, indican el cambio en la respuesta media de Y por unidad de incremento
en la respectiva variable X j , cuando las dems predictoras permanecen constantes (sin importar en qu nivel son fijadas
estas ltimas). Como los efectos de una predictora sobre la respuesta media no dependen del nivel de las dems, tales
efectos son denominados efectos aditivos. Los parmetros j , son tambin llamados coeficientes de regresin parcial
porque reflejan el efecto parcial de una variable predictora sobre la respuesta media en presencia de las dems predictoras
que aparecen en el modelo.

NOTA: El trmino modelo lineal significa que el modelo es lineal en los parmetros, lo cual no hace referencia a la forma de
la superficie de respuesta.

3.

Tipos de variables y de efectos en los modelos

Las variables predictoras pueden ser:


 Cuantitativas, caso en el cual se supone se miden sin error (o el error es despreciable).
 Cualitativas o categricas, en este caso su manejo en el modelo se realiza a travs de la definicin de variables
indicadoras, las cuales toman valores de 0 1. Por ejemplo, suponga que en un modelo de regresin para el gasto
mensual por familia en actividades recreativas, se tiene entre las variables predictoras el estrato socioeconmico,
definido en cinco niveles, luego, para cada nivel se define una variable indicadora de la siguiente forma:

1 familia en estrato 1
I1 =
0 otro caso

1 familia en estrato 2
I2 =
0 otro caso

1 familia en estrato 3
I3 =
0 otro caso

1 familia en estrato 4
I4 =
0 otro caso

1 familia en estrato 5
I5 =
0 otro caso
En general, una variable cualitativa con c clases se representa mediante c 1 variables indicadoras, puesto que
cuando en una observacin dada, todas las c 1 primeras indicadoras son iguales a cero, entonces la variable
cualitativa se haya en su ltima clase. En el ejemplo anterior basta definir las primeras cuatro indicadoras.

En el caso con variables predictoras cuantitativas, existe la llamada regresin polinomial en la que se utilizan trminos
cuadrticos y de orden superior de estas variables, como en los diseos experimentales para optimizacin de procesos
mediante la metodologa de superficie de respuesta. A pesar de la naturaleza no lineal de tales superficies de respuesta,
2

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

estos modelos son casos del modelo de regresin lineal general. Otros modelos pueden usar funciones de respuesta
curvilneas, en los cuales se utilizan variables transformadas de forma compleja, para linealizacin del modelo.

Otros modelos pueden incluir efectos de interaccin, es decir cuando los efectos de una variable predictora depende de los
niveles de otras variables predictoras incluidas en el modelo. Por ejemplo, suponga un modelo de regresin con las variables
predictoras X 1 y X 2 , que incluye tanto los efectos principales como el de interaccin de estas dos variables. Este modelo
corresponde a: Yi = 0 + 1 X i1 + 2 X i 2 + 3 X1 X 2 + i . El trmino de interaccin es representado por 3 X1 X 2 . Para
expresar el anterior modelo en trminos del modelo lineal general, definimos simplemente X 3 = X1 X 2 y rescribimos el
modelo como Yi = 0 + 1 X i1 + 2 X i 2 + 3 X 3 + i .

En este ltimo tipo de modelo los coeficientes de regresin de los trminos individuales X j ya no tienen el significado dado
antes, debido a la presencia de la interaccin, es decir, ya no representan el cambio en la respuesta media cuando se
incrementa en una unidad la respectiva variable predictora, manteniendo constante a las dems. Para el ejemplo, puede
mostrarse mediante derivacin, que cuando X1 se incrementa en una unidad mientras X 2 se deja fija, el cambio en la
respuesta promedio es 1 + 3 X 2 . As, los efectos de una variable predictora sobre la respuesta promedio, dado el nivel fijo
de la otra, dependen del nivel en que se halle esta ltima.

Tenga presente que cualquier modelo que pueda rescribirse en trminos del modelo lineal general, puede trabajarse mediante
las tcnicas de estimacin de mnimos cuadrados, de lo contrario, el modelo se considera no lineal y slo pueden obtenerse
estimaciones mediante mtodos numricos complejos.

3.

Expresin en forma matricial del modelo lineal general y parmetros estimados

El uso del lgebra matricial es la clave para el procedimiento de estimacin por mnimos cuadrados. Para ello, note que
cuando se tienen n observaciones para el modelo lineal, Yi = 0 + 1 X i1 + 2 X i 2 + + k X ik + i , en realidad se tiene
un sistema de n ecuaciones con k + 1 incgnitas correspondiendo al intercepto y los k coeficientes de regresin, donde los
Yi y las X ij toman valores conocidos en cada caso. Tal sistema expresado en forma matricial corresponde a:

y = X +
donde:

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Y1
Y
y = 2 es el vector de respuestas de dimensin n1,


Yn

1 X11
1 X
21
X=

1 X n1

X12
X 22

X n2

Prof. Nelfi Gonzlez A. Escuela de Estadstica

= 1 es el vector de parmetros


k

X1k
X 2 k
es la matriz de diseo, con los valores de las variables predictoras en cada observacin

X nk

1

= 2 es el vector de errores normales independientes con valor esperado E ( ) = 0

y matriz de varianzas covarianzas V ( ) = 2 I nn

2 0

0 2

0
0

Por tanto el vector aleatorio y tiene valor esperado X y la misma matriz de varianzas covarianzas de .

Para la estimacin por mnimos cuadrados se buscan los valores estimados de los parmetros tales que
n

S ( ) = (Yi 0 1 X i1 2 X i 2 k X ik ) = ( y X ) ( y X ) sea mnimo. Denotaremos por b al vector de


2

i =1

parmetros estimados. Matricialmente, las ecuaciones normales de mnimos cuadrados para el modelo lineal general son:

Xt Xb = Xt y y el vector de parmetros estimados es b = X t X

) ( X y) ,
1

desde que X t X sea invertible. Estos

estimadores corresponden a los estimadores por mxima verosimilitud para el modelo de regresin con errores normales.
b0
b
b = 1


bk

Siendo la ecuacin ajustada igual a


4

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

Yi = b0 + b1 X1 + b2 X 2 + + bk X k

4.

Valores ajustados y residuales

Con los valores ajustados Yi se construye el vector de valores ajustados dado por
Y1

Y
y = Xb = 2


Yn

Los residuales corresponden a ei = Yi Yi y el vector de residuales es


e1
e
e = y y = 2


en

El vector de valores ajustados y el vector de residuales pueden ser tambin expresados en trminos de la matriz

H = X Xt X

X t , conocida como la matriz hat o matriz sombrero, la cual es una matriz n n de proyeccin ortogonal y

por tanto es idempotente ( H 2 = H ) y simtrica ( H t = H ), as: y = Hy y e = ( I H ) y .

5.

Estimacin de la varianza

Bajo los supuestos de independencia y distribucin N ( 0 , 2 ) idntica para todos los errores del modelo, el estimador
insesgado de la varianza corresponde a:

2 = MSE =

SSE
n k 1

donde la suma de cuadrados del error SSE corresponde a


n

i =1

i =1

SSE = ei2 = ( yi yi ) = ( y y ) ( y y ) = e t e = y t ( I-H ) y .


2

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

6.

Prof. Nelfi Gonzlez A. Escuela de Estadstica

Algunas propiedades de los estimadores de los parmetros


 Los estimadores de mnimos cuadrados corresponden a los estimadores de mxima verosimilitud, bajo el modelo
lineal normal.
 b es un estimador insesgado del vector de parmetros , es decir,

E [ b ] = E Xt X

Xt y =

 La matriz de varianzas covarianzas de b es

V ( b ) = V Xt X

Xt y = 2 Xt X

Tal matriz (la cual es simtrica) tiene sobre su diagonal principal a las varianzas de los estimadores de los parmetros,

( )

V b j , j = 0 ,1, 2 , k y por fuera de su diagonal principal a las covarianzas entre tales estimadores, es decir, el

elemento en la posicin j ,l es COV b j ,bl .

 Una estimacin de la anterior matriz es S 2 ( b ) = MSE X t X

cuyos elementos en la diagonal principal

( )

corresponden a s 2 b j , estimaciones de las varianzas de los respectivos estimadores b j , en tanto que los
elementos restantes en la matriz son los estimadores de las covarianzas entre los estimadores b j .

7.

Inferencias sobre los parmetros j del modelo de regresin

Bajo los supuestos del modelo de regresin, podemos hallar los siguientes resultados:
Parmetro

Test

H0 : j = j0
H1 : j j 0

T0 =

Estadstico de

Criterio de

Intervalo de confianza

prueba

rechazo

del (1-)100%

bj j0

( )

s2 bj

Rechazar si

~ t n k 1

T0 > t / 2 ,n k 1

con j = 0 para el test de

con significancia

( )

b j t / 2 ,n k 1 s 2 b j

de

significancia del parmetro

NOTA: Para otros testes individuales sobre los parmetros, los criterios de rechazo se establecen segn la desigualdad (de
cola derecha, de cola izquierda o de dos colas) planteada en la hiptesis alternativa.

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

8.

Prof. Nelfi Gonzlez A. Escuela de Estadstica

Inferencias sobre la respuesta media y valores futuros

Suponga que deseamos estimar la respuesta media para X1 = x01 , X 2 = x02 , , X k = x0 k . Sea Y0 la respuesta en tal
t

conjunto de valores. Definiendo el vector x 0 = 1, x01 , x02 , , x0 k podemos escribir Y0 = x 0t + , por tanto la respuesta
media en tal punto es Y |x0 = E Y | x 0 = x 0t = 0 + 1 x01 + 2 x02 + + k x0 k .

Este valor es estimado por la

1
correspondiente respuesta o valor ajustado, Y0 , que puede escribirse como Y0 = x 0t b = x 0t ( X t X ) X t y . Tal estimacin

( )

1
1
tiene como varianza V Y0 = x 0t V ( b ) x 0 = 2 x 0t ( X t X ) x 0 , que es estimada por MSE x 0t ( X t X ) x 0 Podemos

demostrar luego, bajo el supuesto de normalidad, los siguientes resultados:

Para la respuesta media en el vector x 0 = 1, x01 , x02 , , x0 k :


t

Y |x = x0t
0

Intervalo de confianza
Tests de hiptesis

del (1-)100%

Estadstico de prueba
Y0 Y |x0

T0 =

MSE x 0t X t X

H 0 : Y |x0 = c

x0

y0 t / 2 ,n k 1 MSE x 0t X t X

~ t n k 1

con Y0 = x'0b y Y |x0 = c

-1

x0

con y0 = x 0t b

Considere ahora el problema de predecir un valor futuro Y0 (no observado en la muestra) de la variable respuesta, en
X = x , X = x , , X = x . Claramente, usando el modelo ajustado, predecimos tal valor por Y . En este caso,
1

01

02

0k

notando que el valor futuro y su pronstico son independientes, obtenemos que la varianza de la diferencia Y0 Y0 es dada

( )

1
1
por V Y0 Y0 = V Y0 + V (Y0 ) = 2 1 + x 0t X t X x 0 , que es estimada por MSE 1 + x 0t ( X t X ) x 0 . Con esto

podemos hallar los siguientes resultados:


t
Para una respuesta futura en el vector x 0 = 1, x01 , x02 , , x0 k : Y0

Intervalo de prediccin
Pronstico
T0 =

Y0

del (1-)100%

Estadstico
Y0 Y0

MSE 1+x 0t X t X

con Y0 = x 0t b

-1

x0

~ t n k 1

y0 t / 2 ,n k 1 s MSE 1+x 0t X t X

-1

x0

con y0 = x 0t b

Los intervalos de prediccin estiman los posibles valores para un valor particular de la variable respuesta (no para su media)
en un vector dado x 0 . Asumimos que este valor particular es un valor futuro de la variable aleatoria Y, y por tanto, no fue

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

utilizado en la regresin. Si Y0 es un valor futuro y Y0 = x 0t b es su estimador, entonces estas dos variables aleatorias son
estadsticamente independientes, dado que Y0 no fue utilizado para hallar los parmetros estimados, de ah el estadstico y
los lmites del intervalo de prediccin.
Precaucin: Debe evitarse hacer extrapolaciones por fuera del rango de experimentacin en el espacio de las predictoras.
Dado que es posible que existan ciertas asociaciones entre los niveles observados en las variables predictoras o
explicatorias, no basta con evaluar si cada valor componente del vector x 0 se encuentra dentro del rango usado (u
observado) para la correspondiente predictora, sino que es necesario evaluar si x 0 pertenece a la regin de observacin

conjunta. Para ello basta con comprobar si x 0t X t X

9.

-1

x 0 < max ( hii ) , con hii el elemento i-simo de la matriz hat.

Anlisis de varianza

En las siguiente frmulas J es una matriz de n n cuyas entradas son todas iguales a 1, e I es la matriz identidad de
dimensin n n :
Fuente de

Sumas de cuadrados

Grados de

variacin

(en trminos matriciales)

libertad

Regresin

SSR = y t H J y
n

Error

SSE = y

Total

SST = y t I J y
n

(I H) y

Cuadrados medios
MSR =

n k 1

MSE =

SSR
k

F0
MSR
~ f k ,n k 1
MSE

SSE
n k 1

n 1

NOTAS:
 La suma de cuadrados totales corresponde a la suma de los cuadrados de las desviaciones de las respuestas,
n

respecto a la respuesta media, es decir, SST = ( yi y ) .


2

i =1

 La suma de cuadrados de la regresin corresponde a la suma de los cuadrados de las desviaciones de los valores
n

ajustados respecto a la media muestral de la respuesta, es decir, SSR = ( yi y ) .


2

i =1

 La suma de cuadrados del error es simplemente la suma de los cuadrados de los residuales del modelo ajustado, es
n

decir SSE = ei2 .


i =1

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

 k es el nmero de coeficientes (sin considerar el intercepto) en el modelo de regresin ajustado.


Con base en la tabla ANOVA, y bajo los supuestos impuestos sobre los errores, se realiza el test de significancia de la
relacin de regresin el cual se enuncia de la siguiente manera:
H 0 : 1 = 2 = = k = 0 ( el modelo de regresin no es significativo )

H1 : algn j 0 ( existe una relacin de regresin significativa con al menos una de las variables )

El estadstico de prueba es F0 =

MSR
~ f k ,n k 1 . Se rechaza H0 a una significancia dada si F0 > f ,k ,n k 1 . Es decir,
MSE

se prueba que existe una relacin de regresin, sin embargo esto no garantiza que el modelo resulte til para hacer
predicciones.

10.

El coeficiente de determinacin mltiple

Denotado por R2 y definido como


R2 =

SSR
SSE
= 1
SST
SST

mide la proporcin de la variabilidad total observada en la respuesta que es explicada por la asociacin lineal con el conjunto
de variables X1 , X 2 , , X k . Por ser una proporcin, esta cantidad vara entre 0 y 1, siendo igual a 0 cuando todos los
coeficientes de regresin ajustados son iguales a cero, y es igual a 1 si todas las observaciones caen sobre la superficie de
regresin ajustada.

Aunque es usado como una medida de bondad del ajuste de la funcin de regresin, es necesario tener presente que:
 Valores grandes de R2 no implican necesariamente que la superficie ajustada sea til. Puede suceder que se hayan
observado pocos niveles de las variables predictoras y por tanto la superficie ajustada no sera til para hacer
extrapolaciones por fuera de tales rangos. Incluso, si esta cantidad es muy cercana a 1, todava el MSE podra ser
muy grande y por tanto las inferencias tendran poca precisin.
 Cuando se agregan ms variables explicatorias al modelo, el R2 tiende a no decrecer, an cuando existan dentro del
grupo de variables, un subconjunto de ellas que no aportan significativamente.
 Como medida de bondad de ajuste se prefiere usar otros estadsticos que penalicen al modelo por el nmero de
variables incluidas, entre ellos se tienen el MSE, y el R2 ajustado, estas dos medidas son equivalentes: Entre dos

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

modelos ajustados se considera mejor el de menor MSE o equivalentemente el de mayor R2 ajustado, dado que ste
ltimo corresponde a:
2
Radj
= 1

MSE
SST
, donde MST =
MST
n 1

El R2 ajustado disminuye cuando en el modelo se ingresan variables explicatorias sin lograr reducir al SSE, y
causando la prdida de grados de libertad para este ltimo.

11.

Diagnsticos y medidas remediales

11.1

Chequeo de posibles asociaciones

Inicialmente, puede ser de utilidad realizar chequeos grficos de la naturaleza y la fuerza de las asociaciones entre las
variables predictoras con la variable respuesta, y an entre predictoras. Una matriz de dispersin es la herramienta ms til
para visualizar rpida y simultneamente estas relaciones. Si las variables explicatorias se asocian linealmente a la variable
respuesta, los grficos de dispersin respectivos deben presentar las nubes de puntos tendiendo a una lnea recta. Tambin
se puede chequear si existen relaciones de tipo no lineal entre las distintas variables, y la presencia de observaciones atpicas.
Por otra parte, se espera que entre las predictoras no existan relaciones lineales fuertes, pues de lo contrario, habra
informacin que podra ser redundante en el modelo, y se tendra un problema de multicolinealidad1 lo cual afecta en la
estimacin, interpretacin, y precisin de los coeficientes de regresin.

A veces es til tambin acompaar este anlisis grfico con la matriz de correlaciones que proporciona los coeficientes de
correlacin entre la variable respuesta con cada una de las predictoras y tambin todas las correlaciones entre las predictoras.

En las figuras siguientes se presentan varias presentaciones de las matrices de dispersin para un conjunto de datos
simulados sobre tres variables:

Aunque si bien, no se detecten asociaciones lineales fuertes entre pares de variables predictoras, esto no es evidencia suficiente para afirmar que no
existe multicolinealidad. Una de las formas en que este problema se manifiesta es cuando se tiene una funcin de regresin significativa y sin embargo
los coeficientes individuales de la regresin resultan no significativos.
1

10

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

Estas grficas fueron obtenidas en R, generando una muestra aleatoria de tamao n=500 de una normal trivariada con vector
de medias = ( 28.1, 7.18 , 3.089 )

140.54 49.68 1.94

y matriz de covarianza = 49.68 72.25 3.68 , como se muestra a seguir:


1.94
3.68 0.25

11

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

PROGRAMAS R PARA MATRICES DE DISPERSIN


##Simulacin de los datos
library(MASS)
mu=c(28.1,7.18,3.089)
Sigma=matrix(c(140.54,49.68,1.94,49.68,72.25,3.68,1.94,3.68,0.25),ncol=3,byrow=T)
datos.simulados=mvrnorm(500,mu=mu,Sigma=Sigma)
##Matriz de dispersion sencilla:
pairs(datos.simulados,labels=c("x1","x2","x3"))
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersin",side=3)
##Matriz de dispersin con histogramas:
panel.hist= function(x, ...){
usr= par("usr"); on.exit(par(usr))
#para definir regin de graficiacin
par(usr = c(usr[1:2], 0, 1.5) )
#para obtener una lista que guarde las
#marcas de clase y conteos en cada una:
h= hist(x, plot = FALSE)
breaks = h$breaks;
nB= length(breaks)
y= h$counts; y = y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col="cyan", ...)
#para dibujar los histogramas
}
pairs(datos.simulados, panel=panel.smooth,labels=c("x1","x2","x3"),cex = 1.5,
pch = 19, bg="light blue",
diag.panel=panel.hist, cex.labels = 1.5, font.labels=1)
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersin con Histogramas",side=3)
##Matriz de dispersin con boxplots:
panel.box= function(x, ...){
usr= par("usr",bty='n'); on.exit(par(usr))
par(usr = c(-1,1, min(x)-0.5, max(x)+0.5))
b=boxplot(x,plot=FALSE)
whisker.i=b$stats[1,]
whisker.s=b$stats[5,]
hinge.i=b$stats[2,]
mediana=b$stats[3,]
hinge.s=b$stats[4,]
rect(-0.5, hinge.i, 0.5,mediana,...,col='grey')
segments(0,hinge.i,0,whisker.i,lty=2)
segments(-0.1,whisker.i,0.1,whisker.i)
rect(-0.5, mediana, 0.5,hinge.s,...,col='grey')
segments(0,hinge.s,0,whisker.s,lty=2)
segments(-0.1,whisker.s,0.1,whisker.s)
}
pairs(datos.simulados,panel=panel.smooth,cex = 1, pch = 19, bg="light blue",
diag.panel=panel.box,labels=c("x1","x2","x3"),cex.labels = 1.5, font.labels=0.8)

12

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersin con Boxplots",side=3)
##Matriz de dispersin con coeficientes de correlacion:
panel.cor= function(x, y, digits=2, prefix="", cex.cor){
usr = par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
r =cor(x, y)
txt= format(c(r, 0.123456789), digits=digits)[1]
txt= paste(prefix, txt, sep="")
if(missing(cex.cor))
cex = 0.4/strwidth(txt)
text(0.5, 0.5, txt, cex = cex)
}
pairs(datos.simulados,lower.panel=panel.smooth,upper.panel=panel.cor,
labels=c("x1","x2","x3"))
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de dispersin con correlaciones",side=3)

11.2

Chequeo sobre los supuestos en los errores

Recordar que en el modelo de regresin se ha impuesto las siguientes tres condiciones sobre el trmino de error:
 Los errores son variables aleatorias normales de media cero
 Los errores se distribuyen con igual varianza
 Los errores son mutuamente independientes
 Para chequear el supuesto de varianza constante, resulta til un grfico de residuales versus valores ajustados de la
respuesta. Tambin puede aplicarse el test de Levene Modificado, cuando la varianza de los errores se incrementa o
decrementa con los niveles de una de las variables predictoras.
 Se pueden identificar outliers en los grficos de residuales versus valores ajustados de la respuesta, en especial
cuando

se

utilizan

ri = ei /

MSE (1 hii ) .

residuales

estandarizados

d i = ei /

MSE ,

residuales

estudentizados

 Para chequear la independencia, si se conoce el orden en que fueron recolectadas las observaciones, es posible
analizar la serie de tiempo de los residuales y aplicar por ejemplo el test de Durbin Watson, tambin se puede evaluar
grficamente si hay patrones particulares en la serie de los residuales, aunque no siempre en sta se identifican
patrones an cuando exista autocorrelacin. En el mbito de las series de tiempo, existen mtodos ms efectivos

13

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

para evaluar si la serie de errores es un ruido blanco2, como el test de Lung-Box y las funciones de autocorrelacin y
de autocorrelacin muestral
 El supuesto de normalidad puede chequearse bien sea con el grfico de probabilidad normal de los residuales y con el
test de normalidad de Shapiro Wilk.
 Tambin se chequea la presencia de observaciones influyentes y de balanceo con las medidas que ya fueron vistas
para tales anlisis.

11.3

Carencia de ajuste

La carencia de ajuste tambin puede ser evaluada y para el modelo de regresin mltiple se quiere saber si

E ( Y | X1 , X 2 , , X k ) = 0 + 1 X1 + 2 X 2 + + k X k es una superficie de respuesta apropiada, es decir,


H 0 : E ( Y | X 1 , X 2 , , X k ) = 0 + 1 X 1 + 2 X 2 + + k X k
H1 : E ( Y | X 1 , X 2 , , X k ) 0 + 1 X 1 + 2 X 2 + + k X k

Para llevar a cabo este test, se necesitan replicaciones de la respuesta en las combinaciones de niveles de las variables
explicatorias. La suma de cuadrados SSE se descompone como en el caso de regresin simple, en
SSE = SSPE + SSLOF , donde SSPE se halla calculando para cada grupo replicado la suma de cuadrados de las

desviaciones de Y alrededor de la media del grupo, donde un grupo replicado consiste de n j observaciones Yij (i-esima
observacin replicada en el j-simo grupo) obtenidas bajo los mismos valores para cada una de las variables predictoras. Sea
c el nmero de grupos replicados con distintos conjuntos de niveles para las Xs y sea Y j la media de las observaciones

replicadas para el j-simo grupo, entonces la suma de cuadrados para el j-simo grupo est dado por
c

nj

SSPE = Yij Y j
j =1 i =1

con grados de libertad n c

La suma de cuadrados de carencia de ajuste es SSLOF = SSE SSPE , con grados de libertad c k 1 , y el estadstico
de prueba es

En series de tiempo, un ruido blanco es un proceso estocstico que se caracteriza por tener media constante igual a cero, varianza constante y los
trminos del proceso son independientes y por tanto incorrelacionados.

14

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

F0 =

Prof. Nelfi Gonzlez A. Escuela de Estadstica

SSLOF / ( c k 1)
SSPE / ( n c )

MSLOF
~ f c k 1,n c
MSPE

Anlisis de varianza
Fuente de

Suma de

Grados de

Cuadrados

variacin

cuadrados

libertad

medios

Regresin

SSR

MSR = SSR / k

Error

SSE

n k 1

MSE = SSE / ( n k 1)

Carencia de ajuste
Error Puro
Total

11.4

SSLOF

c k 1

SSPE

nc

SST

n 1

f calculada
F0 =

MSR
MSE

MSLOF
MSLOF = SSLOF / ( c k 1) F0 = MSPE
MSPE = SSPE / ( n c )

Medidas remediales

Las medidas remediales descritas en el caso de la regresin simple tambin son aplicables en la regresin mltiple. Con el fin
de superar las deficiencias del modelo se pueden realizar transformaciones sobre la variable respuesta y/o sobre las variables
predictoras. Las transformaciones sobre la respuesta pueden ayudar en el caso de que los errores no resulten normales o la
varianza no sea constante. Transformaciones sobre las variables predictoras resultan tiles cuando la superficie de respuesta
es curvilnea.

Hay que tener cuidado cuando se transforma la variable respuesta, en particular cuando se usan las llamadas
transformaciones de Box-Cox, las que pueden resultar en nuevas variables carentes de interpretacin prctica segn el
fenmeno o contexto al cual pertenece la variable respuesta.

Si las desviaciones respecto al supuesto de normalidad son severas, y ninguna transformacin resulta til y/o interpretable,
existe otra alternativa, los llamados modelos lineales generalizados con los cuales se pueden modelar respuestas que no se
distribuyen normales; sin embargo, tales modelos estn ms all del alcance de este curso.

12.

Sumas de cuadrados extras

Una suma de cuadrados extra mide la reduccin marginal en el SSE cuando una o varias variables predictoras son agregadas
al modelo de regresin, dado que las otras predictoras ya fueron agregadas o estn en el modelo, o bien, es una medida del
15

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

incremento marginal en el SSR cuando una o ms predictoras son agregadas al modelo de regresin (Neter, .1996). Por
ejemplo, suponga un modelo de regresin mltiple de una respuesta dada sobre tres variables X1 , X 2 , X 3 , entonces
definamos algunas de las posibles sumas de cuadrados extras:
SSR ( X 1 | X 2 , X 3 ) = SSR ( X 1 , X 2 , X 3 ) SSR ( X 2 , X 3 ) es la suma de cuadrados extras de X1 dado que X 2 y X 3 ya

estn en el modelo de regresin, lo cual se interpreta como el incremento marginal en la suma de cuadrados de regresin por
agregar X1 al modelo de regresin mltiple de Y vs. X 2 y X 3 . SSR ( X1 , X 2 , X 3 ) es el SSR del modelo de regresin con
las tras variables X1 , X 2 , X 3 y SSR ( X 2 , X 3 ) es el SSR del modelo de regresin mltiple con slo las variables X 2 y X 3 .
Los grados de libertad de SSR ( X1 | X 2 , X 3 ) se hallan como la diferencia de los grados de libertad de SSR ( X1 , X 2 , X 3 )
menos los grados de libertad de SSR ( X 2 , X 3 ) , es decir, 3 2 = 1 grados de libertad.
SSR ( X1 , X 2 | X 3 ) = SSR ( X1 , X 2 , X 3 ) SSR ( X 3 ) es la suma de cuadrados extras de X1 y X 2 dado que X 3 ya est

en el modelo de regresin, esto corresponde al incremento marginal en la suma de cuadrados de regresin por agregar
simultneamente X 1 y X 2 , al modelo de regresin de Y vs. X 3 . Aqu, SSR ( X 3 ) es el SSR del modelo de regresin de

Y vs. X 3 . Los grados de libertad de SSR ( X1 , X 2 | X 3 ) corresponden a la diferencia de los grados de libertad de
SSR ( X1 , X 2 , X 3 ) menos los grados de libertad de SSR ( X 3 ) , es decir, 3 1 = 2 .
SSR ( X 1 | X 3 ) = SSR ( X 1 , X 3 ) SSR ( X 3 ) es la suma de cuadrados extras de X 1 dado que X 3 est en el modelo de

regresin, o en otras palabras, es el incremento en la suma de cuadrados de la regresin debido a la inclusin de X1 al


modelo de regresin de Y vs. X 3 . Aqu SSR ( X1 , X 3 ) es la suma de cuadrados de la regresin mltiple de Y vs. X 1 y
X 3 . Los grados de libertad de SSR ( X 1 | X 3 ) son iguales a la diferencia de los grados de libertad de SSR ( X 1 , X 3 )

menos los grados de libertad de SSR ( X 3 ) , es decir, 2 1 = 1 .


Ahora defina usted SSR ( X 2 | X 1 ) .

12.1

Descomposicin del SSR en sumas de cuadrados extras

La suma de cuadrados de regresin de un modelo dado puede descomponerse en sumas de cuadrados extras. Considere de
nuevo el modelo de regresin mltiple de una respuesta dada sobre tres variables X1 , X 2 , X 3 , la correspondiente suma de

16

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

cuadrados de regresin puede descomponerse de las siguientes maneras (stas son slo algunas de las posibles
descomposiciones):
SSR ( X 1 , X 2 , X 3 ) = SSR ( X 1 ) + SSR ( X 2 | X 1 ) + SSR ( X 3 | X 1 , X 2 )

SSR ( X1 , X 2 , X 3 ) = SSR ( X 2 ) + SSR ( X 3 | X 2 ) + SSR ( X 1 | X 2 , X 3 )


SSR ( X1 , X 2 , X 3 ) = SSR ( X 2 ) + SSR ( X 1 , X 3 | X 2 )

Una forma particular de descomposicin que puede obtenerse con los paquetes estadsticos, son las sumas de cuadrados de
regresin secuenciales o SS1, que son sumas de cuadrados extras de 1 grado de libertad, en la cual cada variable explicatoria
es agregada secuencialmente, segn el orden en que son nombradas en el modelo de regresin completo, por ejemplo , si se
especifica el modelo Y = 0 + 1 X1 + 2 X 2 + 3 X 3 + , la descomposicin en sumas de cuadrados secuenciales
correspondiente es SSR ( X 1 , X 2 , X 3 ) = SSR ( X 1 ) + SSR ( X 2 | X 1 ) + SSR ( X 3 | X 1 , X 2 ) :
Fuente
X1
X 2 | X1
X 3 | X1 , X 2
Regresin

SS1

Grados de libertad

SSR ( X 1 )

SSR ( X 2 | X 1 )

SSR ( X 3 | X1 , X 2 )

SSR

Otro tipo de sumas de cuadrados extras de 1 grado de libertad que se obtienen en los paquetes estadsticos, son las sumas de
cuadrados de regresin parciales SS2 las cuales corresponden a las sumas de cuadrados extras de cada variable
explicatoria en el modelo, dadas las dems. De nuevo considere el modelo Y = 0 + 1 X 1 + 2 X 2 + 3 X 3 + , las sumas
de cuadrados de parciales corresponden a:
Fuente

SS2

Grados de libertad

X1 | X 2 , X 3

SSR ( X 1 | X 2 , X 3 )

X 2 | X1 , X 3

SSR ( X 2 | X 1 , X 3 )

X 3 | X1 , X 2

SSR ( X 3 | X 1 , X 2 )

Observe que la ltima suma de cuadrados de regresin parcial corresponde a la ltima suma de cuadrados de regresin
secuencial para el modelo del ejemplo, y adems que estas tres sumas de cuadrados extras no constituyen una

17

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

descomposicin de la suma de cuadrados de la regresin del modelo completo, es decir, la suma de las sumas de cuadrado
tipo SS2 no es igual al SSR del modelo completo.

12.2

Prueba de la significancia de coeficientes de regresin individual mediante sumas de cuadrados extras

En la seccin 7 se present la prueba de hiptesis de significancia de los j del modelo de regresin mediante el uso del
estadstico T0 = b j /

( )

s 2 b j ~ t n k 1 bajo la hiptesis nula j = 0 . Considere j = 1, 2 , , k , si se eleva al cuadrado

esta variable aleatoria T0 ~ t n k 1 , se obtiene la variable aleatoria F0 = T02 ~ f1,n k 1 y puede demostrarse que este
estadstico tambin corresponde a:
F0 =

SSR X j | X1 , X 2 , , X j 1 , X j +1, X j + 2 , X k
MSE ( X 1 , X 2 , , X k )

es decir, la suma de cuadrados parcial SS2 de la respectiva variable X j , dividida por el MSE del modelo de regresin
completo (con todas las predictoras). A un nivel de significancia de , el criterio de rechazo con este estadstico de la
hiptesis H 0 : j = 0 en favor de H1 : j 0 , es F0 > f ,1,n k 1 .

NOTA: En el caso de la regresin lineal simple puede mostrarse que el estadstico F del test de significancia de la regresin
mediante el anlisis de varianza es igual al cuadrado del estadstico t de la prueba de significancia de la pendiente de la recta
de regresin.

12.3

Prueba de la significancia de subconjuntos de coeficientes de regresin mediante sumas de cuadrados extras

Considere ahora el caso en el cual se desea probar simultneamente la significancia de 2 o ms coeficientes de la regresin,
por ejemplo, en el modelo Y = 0 + 1 X1 + 2 X 2 + 3 X 3 + 4 X 4 + 5 X 5 + se desea probar si las variables X 1 , X 2 y
X 5 pueden ser eliminadas del modelo, es decir, se desea probar que:
H 0 : 1 = 2 = 5 = 0
H1 : almenos uno entre 1 , 2 y 5 es 0

Para este tipo de pruebas se requiere formular dos modelos:


 El modelo completo, para el ejemplo es Y = 0 + 1 X1 + 2 X 2 + 3 X 3 + 4 X 4 + 5 X 5 + .
 El modelo nulo: es decir, aquel al cual se reduce el modelo completo eliminando las variables explicatorias sobre las
cuales se realiza esta prueba. Para el ejemplo es Y = 0 + 3 X 3 + 4 X 4 +
18

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

El estadstico de prueba es igual a la razn del cuadrado medio de la diferencia de las sumas de cuadrados del error del
modelo nulo menos la del modelo completo, sobre el cuadrado medio del error del modelo completo. Para el ejemplo, sera:

F0 =
=

SSE ( X 3 , X 4 ) SSE ( X1 , X 2 , X 3 , X 4 , X 5 ) / ( n 3) ( n 6 )
MSE ( X1 , X 2 , X 3 , X 4 , X 5 )

SSE ( X 3 , X 4 ) SSE ( X1 , X 2 , X 3 , X 4 , X 5 ) / 3
MSE ( X1 , X 2 , X 3 , X 4 , X 5 )

pero tenemos que:


SSE ( X 3 , X 4 ) SSE ( X 1 , X 2 , X 3 , X 4 , X 5 ) =
=

SSR ( X 1 , X 2 , X 3 , X 4 , X 5 ) SSR ( X 3 , X 4 )

SSR ( X 1 , X 2 , X 5 | X 3 , X 4 )

por lo tanto el estadstico de la prueba es simplemente la suma de cuadrados extra de regresin de las variables cuya
significancia se prueba, dada las dems variables del modelo, dividida por sus grados de libertad, sobre el cuadrado medio del
error del modelo completo:
F0 =

SSR ( X 1 , X 2 , X 5 | X 3 , X 4 ) / 3
MSE ( X 1 , X 2 , X 3 , X 4 , X 5 )

~ f

3 ,n 6

A un nivel de significancia de , el criterio de rechazo de la hiptesis nula es F0 > f ,3 ,n 6 .

NOTA: Recuerde que:


 Los grados de libertad de la diferencia de dos sumas de cuadrados es igual a la diferencia de los respectivos grados
de libertad.
 Los cuadrados medios se construyen dividiendo la respectiva suma de cuadrados por sus grados de libertad.
Otro ejemplo: En el modelo Y = 0 + 1 X1 + 2 X 2 + 3 X 3 + 4 X 4 + 5 X 5 + , para probar la hiptesis:
H0 : 2 = 4 = 0
H1 : almenos uno entre 2 y 4 es 0

19

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

se usa F0 =

SSR ( X 2 , X 4 | X1 , X 3 , X 5 ) / 2
MSE ( X1 , X 2 , X 3 , X 4 , X 5 )

~ f

2 ,n 6

Prof. Nelfi Gonzlez A. Escuela de Estadstica

y con un nivel de significancia de , el criterio de rechazo de la

hiptesis nula es F0 > f ,2 ,n 6 .

13.

Seleccin de variables predictoras

En algunos estudios observacionales o exploratorios se parte de un modelo de regresin en el que se considera un conjunto
grande de variables explicatorias potenciales para luego identificar un subconjunto entre tales variables, que resulte
potencialmente til para construir el modelo de regresin final. Dependiendo de los usos que se deseen dar a un modelo de
regresin variar el subconjunto de variables seleccionadas. Por ejemplo, desde el punto de vista del ajuste, cierto subgrupo
de variables sern tiles, en tanto que desde el punto de vista del pronstico, otro subconjunto podra resultar ser mejor. Es
necesario pues fijar un criterio de seleccin del mejor subconjunto de variables.

13.1

Procedimientos de reduccin de variables explicatorias mediante todas las regresiones posibles

Este procedimiento consiste en correr las regresiones de la variable respuesta vs. todos los posibles subconjuntos de 1, 2, ,
k variables explicatorias, y comparar tales modelos con base en alguno o varios de los siguientes estadsticos:
2
 El Radj
: El mejor modelo es aqul con mayor valor en este estadstico.

 El MSE : El mejor modelo es aqul con menor valor en este estadstico. Sin embargo usar este criterio equivale a
2
usar el criterio del Radj
.

 El C p , el mejor modelo es aqul para el cual C p es el ms pequeo posible (es decir, el modelo con el menor
nmero de variables predictoras posible) y tal que la diferencia C p p es mnima, con p igual al nmero de
parmetros del modelo considerado, incluyendo el intercepto. Este estadstico es una medida del sesgo en el modelo

( )

de regresin, es decir, de E Yi i , y es tal que a mayor sesgo, mayor C p . Este estadstico se calcula como:

Cp =

SSE p

MSE ( X1 , X 2 , , X k )

( n 2 p)

donde SSE p es la suma de cuadrados del error del modelo de regresin con p 1 k variables explicatorias y
MSE ( X 1 , X 2 , , X k ) es la suma de cuadrados medios del error para el modelo de regresin con todas la k

variables. Este criterio enfatiza en el ajuste de cada modelo.

20

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

El uso del criterio C p supone que MSE ( X1 , X 2 , , X k ) proporciona un estimador insesgado de la varianza 2 y
que las relaciones de la respuesta con cada predictora han sido expresadas en el modelo de forma apropiada (lineal,
cuadrtica, transformada, etc.) y que las variables menos tiles han sido excluidas.

 El PRESS P o suma de cuadrados de prediccin, mide qu tambin el uso de los valores ajustados por un
submodelo puede predecir las respuestas observadas. Mientras menor sea esta medida, mejor se considera el
modelo. El PRESS es como un SSE, pero en el cual el valor ajustado para cada observacin Yi se halla estimando el
submodelo sin considerar dicha observacin, tales valores ajustados se denotan por Yi ( i ) ; as el PRESS es la suma
n

de cuadrados de los errores de prediccin e( i ) = Yi Yi ( i ) , es decir, PRESS P = e(2i ) . Para cada submodelo, la
i =1

definicin del error de prediccin implica correr n regresiones separadas (cada una con n 1 datos) con cada
observacin eliminada en cada caso, sin embargo, basta con correr una vez el modelo con todas las observaciones,
hallar sus residuales ordinarios, y los elementos de la diagonal principal de la matriz hat y calcular e( i ) = ei / (1 hii ) .

Si se usan dos o ms criterios de seleccin de modelos, es posible que cada criterio lleve a modelos distintos. La decisin
final debe basarse en el anlisis de residuales y otros diagnsticos, adems de complementar con el conocimiento y la
experiencia de personas expertas en el mbito en el cual est inmerso el problema.

13.2

Procedimientos de reduccin de variables mediante seleccin automtica

Bsicamente, existen tres procedimientos de seleccin automtica, los cuales son computacionalmente menos costosos que el
procedimiento de seleccin basado en ajustar todas las regresiones posibles, y operan en forma secuencial:
 Forward o seleccin hacia delante
 Backward o seleccin hacia atrs
 Stepwise, una combinacin de los dos anteriores
El mtodo forward inicia ajustando todas las regresiones simples posibles, selecciona entre estos modelos el de menor MSE
pero tal que la respectiva variable resulte significativa, luego va agregando variables, una por vez, buscando reducir tambin
en forma significativa la suma de cuadrados de los errores, lo cual es evaluado a travs de pruebas F en las que se involucra
el clculo de sumas de cuadrados extras de una nueva variable dadas las dems que previamente se ingresaron en el modelo.
Entre varias variables candidatas a ingresar al modelo en un paso dado del algoritmo, se elige aquella que reduzca ms

21

Regresin Mltiple Curso: Regresin y Diseo de Experimentos

Prof. Nelfi Gonzlez A. Escuela de Estadstica

significativamente el SSE. El procedimiento se detiene cuando entre las variables restantes que no han sido ingresadas hasta
el paso previo, ninguna contribuira significativamente en la reduccin del SSE si fuese ingresada.

El mtodo backward, parte del modelo con todas las variables y elimina secuencialmente de a una variable, buscando reducir
el SSE. La variable que se elimina en cada paso, es aquella que no resulta significativa en presencia de las dems variables
del modelo de regresin que se tiene en ese momento. Tambin se recurre a pruebas F basadas en sumas de cuadrados
extras, y entre varias variables candidatas a salir del modelo, se retira la de menor significancia. El algoritmo se detiene
cuando todas las variables que an permanecen en el modelo son significativas en presencia de las dems.

El mtodo stepwise, comienza agregando variables, una a la vez, la nueva variable es ingresada segn el mtodo forward,
pero una vez ingresada una nueva variable, se evala que las dems que ya estaban en el modelo sigan siendo significativas,
es decir, aplica el principio del mtodo backward. As, en un paso dado puede ingresar una variable y salir otra que en un paso
previo ya haba sido ingresada, es ms, puede suceder que una misma variable entre, salga y vuelva a ser ingresada en pasos
subsiguientes del algoritmo. El algoritmo se detiene cuando ya no hay ms variables para ingresar que contribuyan
significativamente a reducir el SSE, en tanto que todas las que se tienen en el modelo son significativas.

Como se anot antes en el procedimiento de seleccin de variables mediante todas las regresiones posibles, el modelo final
no solamente debe ser el resultado de estos algoritmos de seleccin, tambin es necesario usar el juicio y el conocimiento
previo que se tenga sobre el problema en el cual se est inmerso.

Cuando una o ms variables explicatorias de tipo cualitativas son consideradas en un modelo de regresin mediante un
conjunto de variables indicadoras, en estos procesos de seleccin de variables se recomienda mantener a stas juntas, como
un solo grupo, an si un subconjunto de ellas resulta mejor de acuerdo al criterio de seleccin empleado. Esta recomendacin
tambin aplica en el caso de modelos en los cuales se incluyen trminos polinomiales de una variable, es decir, trminos
lineales, cuadrticos, etc. Si un trmino polinmico de orden m de una variable dada va a ser dejado en el modelo, entonces
todos los trminos de orden inferior de esa misma variable tambin se recomienda dejarlos en el modelo, as no sean
significativos segn el criterio de seleccin aplicado. Similarmente, si se tienen incluidos trminos de interaccin entre
variables explicatorias, los trminos de interaccin de menor orden y los trminos lineales de las variables involucradas en
tales interacciones, tambin deben permanecer en el modelo.

Bibliografa
MONTGOMERY, D.C. y PECK, E. A (1992). Introduction to Linear Regression Analysis. John Wiley & Sons.
NETER, N. et. al. (1996) Applied Linear Statistical Models. Irwin.
22

Вам также может понравиться