Вы находитесь на странице: 1из 4

Probabilitat i Estadstica (Grau Enginyeria Civil i Enginyeria Camins) Mnimos cuadrados

1. Modelo de regresion lineal m ultiple.


Se consideran una variable Y , que llamamos respuesta, y un conjunto de k variables X
1
, X
2
, . . . , X
k
,
llamadas explicativas. Estas variables han sido observadas en n casos, de los que se han obtenido los
datos u observaciones y
i
, x
i1
, x
i2
, . . . , x
ik
, para i = 1, 2, . . . , n. Se pretende ajustar un modelo a los
datos disponibles de forma que para cada valor de X
1
, X
2
, . . . , X
k
, observado o no, se pueda hacer una
prediccion del valor respuesta que le corresponda. Para ello se propone el modelo, lineal en las Xs,

Y =
0
+
k

j=1

k
X
k
, (1)
donde

Y es la prediccion de Y cuando se jan los valores de las variables explicativas X
j
. Se supone que
los coecientes
j
se determinan a partir de las observaciones disponibles de forma que se satisfaga
alg un criterio de optimalidad. En la seccion siguiente se presenta el ajuste de mnimos cuadrados.
Tradicionalmente, la variable respuesta se llama inadecuadamente variable dependiente, mientras a
las variables explicativas se las denomina independientes, tambien inadecuadamente. Las variables
explicativas tambien reciben el nombre generico de co-variables.
Las diferencias que haya entre el predictor y el valor de la variable Y , =

Y Y se llama residuo o
error de prediccion. Debe notarse que el residuo solo es evaluable en los n valores en que la respuesta Y
haya sido observada. El calculo del residuo mediante una diferencia indica que se esta suponiendo que
la variable respuesta Y y su predictor

Y son variables reales. Es decir, que la medida de diferencia entre
ellas corresponde a la resta de n umeros reales, y que su escala es considerada absoluta. Otras escalas de
la variable respuesta requeriran realizar alguna transformacion de los datos respuesta para adaptarlos
al modelo (1). Por ejemplo, si una variable Z es estrictamente positiva, pongamos la velocidad del
viento en m/s, aceptaremos que la escala es relativa: al comparar dos velocidades de 1 m/s y 2 m/s
estamos dispuestos a aceptar que la segunda es doble de la primera. Pero al comparar dos velocidades
de 30 m/s y 31 m/s aceptaremos que la diferencia entre una y otra es poco apreciable, a pesar de
que su diferencia es nuevamente 1 m/s. En un caso como este, es recomendable no utilizar Z como
variable respuesta, sino su logaritmo Y = log Z, que transforma la escala relativa a una escala de tipo
absoluto.
Las variables explicativas pueden tener caractersticas muy diferentes seg un el problema de que se trate.
En general, el requerimiento es que su combinacion lineal expresada en el predictor sea una variable
real, comparable a la respuesta. El caso mas general corresponde a que las variables explicativas
describan fenomenos diferentes que sean capaces de inuir en la respuesta. Sin embargo, se puede
suponer que todas o algunas de las variables X
i
son funciones de otra variable Z. Por ejemplo, si
conviene puede suponerse que X
1
= Z, X
2
= Z
2
, . . . , X
k
= Z
k
. El modelo obtenido de esta forma
sera un polinomio de grado k. En otras ocasiones conviene mezclar varias formas funcionales de Z,
por ejemplo, X
1
= Z, X
2
=
_
|Z|, X
3
= exp(Z). Hay dos formas de las variables X
i
que resultan
especialmente utiles en muchas aplicaciones. Se trata de las funciones indicatrices de conjunto y de
las variables con desplazamiento.
Supongamos que una variable binaria Z puede tomar 2 valores cualitativos, seg un el caso examinado
sea de un tipo u otro. Por ejemplo, si los datos proceden de humanos, Z puede indicar el sexo, Z = M
Prof: J.J. Egozcue i Maribel Ortego 1 ETSECCPB. Curs 2013/14
Probabilitat i Estadstica (Grau Enginyeria Civil i Enginyeria Camins) Mnimos cuadrados
si es masculino, Z = F si es femenino; o, si Z es la edad de los individuos, puede interesar distinguir
el caso de mayores de 18 a nos (Z > 18) y menores (Z 18). Este tipo de variables cualitativas
suelen llamarse factores (en este caso a dos niveles). Para manejar este tipo de variables en un modelo
de regresion es conveniente introducir la funcion indicatriz I{cond} que toma el valor 1 si se cumple
la condicion denominada cond y 0 en caso contrario. En los dos ejemplos mencionados, la funcion
I{Z = M} asigna un 1 a las observaciones sobre individuos masculinos y 0 a los femeninos. En
el segundo caso I{Z > 18} asigna 1 a los individuos mayores de 18 a nos y 0 a los menores. Un
ejemplo sencillo de la utilizacion de los indicadores puede se la prediccion del logaritmo del peso de
un individuo, Y , a partir del logaritmo de su talla X
1
y de su sexo. Para ello se toma X
2
= I{Z = M}
y X
3
= X
1
I{Z = M}. El modelo de predictor sera:

Y =
0
+
1
X
1
+
2
I{Z = M} +
3
X
1
I{Z = M} .
La interpretacion de los coecientes
i
es interesante. Los coecientes
0
y
1
corresponden a la
interseccion en el origen y pendiente cuando el predictor se aplica a individuos femeninos, mientras
que los coecientes
2
y
3
corresponden a las variaciones que
0
y
1
tienen por el hecho de que el
predictor se aplique a individuos masculinos. Por ejemplo, si
2
y
3
pudieran considerarse nulos, sera
indicacion de que la prediccion del logaritmo del peso a partir del logaritmo de la talla no depende
del sexo.
El otro caso interesante mencionado corresponde a datos que se registran en el tiempo de forma regular,
por ejemplo, anualmente. Supongamos que se tiene una variable explicativa Z(t), que depende del a no
t en que se registra. Pero se sospecha que los valores de la respuesta pueden depender del valor que
tomo Z en a nos anteriores. En ese caso puede ser conveniente introducir la variable X
1
= Z(t) y las
correspondientes desplazadas en el tiempo X
2
= Z(t 1), X
3
= Z(t 2), ...
Puede concluirse que el modelo de prediccion lineal (1), a pesar de su aparente sencillez, es adaptable
a multitud de situaciones diferentes. Su valor en las aplicaciones reside en la capacidad del modelo
de hacer predicciones de calidad, pero tambien es importante la interpretacion cualitativa del modelo
dependiendo de los valores de los coecientes
j
, que pueden indicar la importancia de la relacion
lineal entre las variables explicativas y la respuesta.
El ajuste del modelo a las observaciones puede realizarse bajo diversos criterios, de los cuales el mas
utilizado es el de mnimos cuadrados. Para estudiar con mas detalle la interpretacion del modelo y
su validez sera necesario utilizar tecnicas estadsticas que se desarrollan en temas posteriores. Lo que
aqu se indica tiene un valor meramente exploratorio.
2. Ajuste de mnimos cuadrados.
Se consideran observaciones de una variable respuesta y
i
, i = 1, 2, . . . , n que corresponden a valores de
k variables explicativas x
i1
, x
i2
, . . . , x
ik
. El modelo de regresion lineal m ultiple para las observaciones
es
y
i
=
0
+
k

j=1

j
x
ij
+e
i
, i = 1, 2, . . . , n. (2)
Prof: J.J. Egozcue i Maribel Ortego 2 ETSECCPB. Curs 2013/14
Probabilitat i Estadstica (Grau Enginyeria Civil i Enginyeria Camins) Mnimos cuadrados
Para simplicar la notacion es frecuente introducir una variable explicativa cticia con valor constante
igual a 1, x
i0
= 1, que multiplicara a la constante
0
. Se pretende estimar los coecientes
i
, i =
0, 1, . . . , k de forma que la suma de cuadrados de los residuos sea mnima. Para ello introducimos
notacion matricial: y es un n-vector que contiene los valores observados de la respuesta; la (n, k + 1)-
matriz X contiene los datos de las variables explicativas, incluida la constante; el (k + 1)-vector b
contiene los coecientes
j
. Entonces, la funcion a minimizar se expresa
SSE =
n

i=1
e
2
i
= (y Xb)
t
(y Xb) ,
donde la notacion SSE proviene del ingles sum of squares, error. Derivando SSE respecto al vector
b, e igualando a cero para hallar el unico extremo (mnimo), se obtiene la estimacion de mnimos
cuadrados (least squares) b dada por

b =
_
(X
t
X)
1
X
t

y , (3)
donde

() signica estimado por mnimos cuadrados. A pesar de la elegancia de (3), esta expresion no
se utiliza directamente en el calculo numerico de

b que implica una inversion de matriz que puede ser
muy problematica. La descomposicion en valores singulares (SVD) de X es la tecnica que conviene
utilizar para este calculo. La (k +1, n)-matriz X

= (X
t
X)
1
X
t
se llama pseudo-inversa (Penrose) de
X. Debe notarse que X es, en general, una matriz rectangular y por tanto no invertible. Sin embargo
X

tiene propiedades que sugieren el nombre de pseudo-inversa:


X

XX

= X

, XX

X = X , X

X = (X

X)
t
, XX

= (XX

)
t
.
Supongamos que se ha obtenido

b. Dando valores arbitrarios a las covariables x = (x
0
, x
1
, . . . , x
k
), se
puede construir el predictor de la variable respuesta
y(x) =

b
t
x =

0
+
k

j=1

j
x
j
.
Conviene ahora examinar la estructura de los residuos. Para el dato i-esimo se tiene
y
i
y
. .
desv. Total
= y(x
i
) y
. .
desv. Regres.
+y
i
y(x
i
)
. .
residuo e
i
,
es decir, la desviacion de la respuesta respecto a su media muestral es la suma de la desviacion del
predictor de regresion y el residuo para cada observacion. El ajuste de mnimos cuadrados garantiza la
ortogonalidad de los vectores que contienen estas desviaciones en un espacio n-dimensional, de forma
que deniendo las sumas de cuadrados (Sum of Squares)

SST =
n

i=1
(y
i
y)
2
,

SSR =
n

i=1
( y(x
i
) y)
2
,

SSE =
n

i=1
(y
i
y(x
i
))
2
,
se tiene, debido al teorema de Pitagoras,

SST =

SSR +

SSE .
Prof: J.J. Egozcue i Maribel Ortego 3 ETSECCPB. Curs 2013/14
Probabilitat i Estadstica (Grau Enginyeria Civil i Enginyeria Camins) Mnimos cuadrados
Estas sumas de cuadrados son proporcionales a las estimaciones de las varianzas de las desviaciones
correspondientes, por lo que el tanto por uno de varianza de la respuesta explicada por el modelo de
regresion es
R
2
=

SSR

SST
=

SST

SSE

SST
, 0 R
2
1 ,
denominado coeciente de determinacion o de regresion m ultiple, que constituye una medida de calidad
de ajuste del modelo. Sin embargo, puede comprobarse que R
2
depende crticamente del n umero de
datos n y del como se distribuyen los valores de las variables explicativas. Por ejemplo, en un modelo
simple con una sola variable explicativa con n = 2, siempre se obtiene R
2
= 1. En geometra, este
hecho corresponde a la conocida propiedad Eucldea por dos puntos siempre pasa una recta. Estos
hechos indican la necesidad de una evaluacion estadstica de los modelos ajustados.
Prof: J.J. Egozcue i Maribel Ortego 4 ETSECCPB. Curs 2013/14

Вам также может понравиться