C3.clase de Modelo Lineal General Via Regresion

CLASE DE MODELO LINEAL GENERAL, Y REGRESIN LINEAL SIMPLE Y
MLTIPLE
El modelo lineal general se puede plantear con la siguiente ecuacin matricial:
Y = XB + U
donde:
Y: Matriz de variables de respuesta:
X: Matriz de variables explicativas (generalmente, una matriz de diseo)
B: Matriz de coeficientes.
U: Matriz de errores.
Se supone que los errores se distribuyen segn una distribucin normal

multivariada.
La ltima caracterstica es importante, porque al asumir una distribucin normal,

vamos a establecer que el Modelo Lineal General incluye las siguientes tcnicas
estadsticas:
Regresin Lineal por Mnimos Cuadrados (Gaussiana)

Anlisis de Variancia ANDEVA (Gaussiana).
Prueba t para diferencia de dos medias en muestras independientes.
Prueba t para una media
MANOVA (Anlisis de Variancia Multivariado)
Anlisis Discriminante
Anlisis Factorial
En otras palabras, el Modelo Lineal General engloba varias de las tcnicas

estadsticas por aprender en este curso: Particularmente las llamadas pruebas o
contrastes paramtricos.
Regresin Lineal simple:
A diferencia de la correlacin, en regresin suponemos que una variable es

independiente (generalmente x) y la otra es dependiente (y). Esto quiere
decir que los valores de x determinan los valores de y.
En una regresin lineal simple, planteamos una ecuacin lineal de la forma:
Y 0 1 X
Se puede argumentar que esta es la ecuacin de regresin en la poblacin. Como
generalmente no tenemos datos de una poblacin, sino de una muestra, podemos
estimar los parmetros (0 y 1) con lo que se conoce como el mtodo de mnimos
cuadrados ordinarios (MCO). La ecuacin quedara de la siguiente forma:
y 0 1 x e
A 0 y 1 se les conoce como los parmetros del modelo. La ecuacin de regresin

se puede utilizar para estimar valores de y, dado cierto valor de x. Tendramos
entonces:
y 0 1 x
A la diferencia entre el valor estimado ( y ) y el valor observado (y), se le conoce

como residuos ( e ). Los residuos son las estimaciones de los errores a nivel
poblacional ().
ei yi y i
Grficamente, los residuos son las diferencias verticales entre los puntos en el
grfico de dispersin y la lnea de regresin:
Los residuos tambin se pueden expresar como:
ei yi 0 1 xi yi 0 1 xi
Vean que los residuos son estimaciones del error que cometemos al usar el
modelo de regresin en lugar de los datos observados.
Si sumamos todos los residuos, uno puede demostrar que:
e
i 1
i 0
Entonces, si nosotros queremos minimizar nuestro error en conjunto, podemos

minimizar la suma de los errores al cuadrado:
n n
ei 2 yi 0 1 xi 2 SCE SC. Re sidual

i 1 i 1
El mtodo de mnimos cuadrados ordinarios MCO se llama as, porque uno puede
encontrar los valores de 0 y 1 para minimizar la SCE, o sea, para minimizar el
error en conjunto:
SCE SCE
0, y 0
0 1
Este es un sistema de ecuaciones con dos incgnitas, que con ms tiempo los
pondra a resolver.
Esto conduce a las frmulas para 0 y 1:
x i x yi y
1 i 1
n , y 0 y 1 x
x
i 1
i x
2
0 se interpreta como:
El valor promedio de la variable dependiente cuando la variable independiente es

igual a 0.
La variable dependiente cambia en promedio en 1 unidades por cada aumento

de una unidad en la variable x.
Para hacer inferencia con una ecuacin muestral a una poblacional, los siguientes
son los supuestos del modelo de regresin:
La variable dependiente condicional a los valores de la variable

independiente se distribuyen normalmente con media 0 1 X y variancia
2 (Normalidad condicional).
Los residuos entonces se distribuyen normalmente con media 0 y variancia
2.
Lo anterior implica que los valores de la variable dependiente, condicional
al modelo, tienen una nica variancia 2 (homoscedasticidad).
La asociacin entre X y Y es lineal.
De la SCE del error se deriva una medida importante que es el error estndar de
estimacin Se. Segn el libro de frmulas, el error estndar de estimacin en una
regresin lineal simple es:
n n n
yi2 0 * yi 1 * xi * y i SCE
i 1 i 1 i 1
Se
n2 n2
El error estndar para el coeficiente 1 es:
se se se
s 1
SC x n sx * n 1
xi x
2
i 1
El error estndar para el coeficiente 0 es:
1 x2
s 0 se *
n SCx
El ajuste del modelo se mide con el coeficiente de determinacin R2. Se puede

demostrar que el R2 es igual al r2 de Pearson. Sin embargo, su frmula es:
SCE SCR
R2 1
SC.Total SC.Total
Y se interpreta como que el modelo de regresin explica el R2*100% de la

variabilidad de la variable dependiente.
Dado que se estn estimando los parmetros poblacionales 0 y 1 con 0 y 1 ,
uno puede plantear las siguientes pruebas de hiptesis:
H0: 0 =0, H1: 0 0
H0: 1 =0, H1: 1 0.
Quiz la ms importante es la segunda, porque si no se rechaza la hiptesis nula,

entonces el modelo de regresin no sirve de mucho. Ntese que si 1 es igual a 0,
entonces:
Y 0
o sea, Y no vara, excepto por el error. En otras palabras, el modelo no explica la

variabilidad de Y.
Tambin se pueden plantear las hiptesis ms generales.
H0: 0 =k, H1: 0 k

H0: 1 =m, H1: 1 m.
Si se usa la estrategia de estadstico de prueba para realizar el contraste de

hiptesis, entonces se pueden usar los siguientes estadsticos de prueba:
Para 1:
1 m
tc
s 1
Para 0:
0 k
tc
s 0
donde ambos tc tienen una distribucin t de Student con n-2 grados de libertad.
Regresin lineal mltiple:
La regresin lineal mltiple es una generalizacin de la regresin lineal simple, en

la que uno tiene ms de una variable independiente.
Y 0 1 X 1 2 X 2 ... k X k
Mantiene los mismos supuestos de la regresin lineal simple:

Normalidad condicional
Homoscedasticidad
Asociacin lineal entre Y y todas las X.
Adicionalmente, est el supuesto de no colinealidad perfecta.
Adems, se utiliza tambin el R2 para analizar la bondad de ajuste del modelo,

aunque en el caso de la regresin lineal mltiple, se utiliza un R2 (ajustado).
Se tienen tambin las mismas pruebas de hiptesis, y los coeficientes de regresin

se interpretan en forma parecida:
El valor promedio de la variable dependiente cuando las variables independientes

son iguales a 0.
j se interpeta como:
La variable dependiente cambia en j unidades por cada aumento de una unidad

en la variable xj, manteniendo constante las otras variables independientes.
En este curso, no vamos a tratar de calcular ninguno de estos modelos, sino nada
ms interpretarlos.
Coeficiente de correlacin parcial:
Mide la asociacin lineal (correlacin) entre dos variables X y Y, controlando por

una o varias variables Z1, Z2, , Zk.
De esta forma es que se tiene que interpretar. Si uno tiene una matriz de
correlaciones bivariadas de Pearson, es fcil calcular los coeficientes de correlacin
parcial controlando por una nica tercera variable (Z) de la siguiente forma:
rXY rXZ * rYZ

rXY Z
1 r * 1 r
2
XZ
2
YZ
Si uno quiere calcular el coeficiente de correlacin parcial entre X y Y, controlando
por ms variables Z1, Z2, , Zk, el procedimiento ms sencillo es:
1. Calcular dos modelos de regresin:
Y 0 1 Z1 2 Z 2 ... k Z k
X 0 1 Z1 2 Z 2 ... k Z k
2. Calcular los residuos de la ecuacin de x y la ecuacin de y: e( X ) y e(Y )

3. Calcular la correlacin bivariada de Pearson entre las dos series de
residuos.
Salidas de computadora.
Regresin lineal simple:
> peso.altura=lm(peso~altura)
> summary(peso.altura)
Call:
lm(formula = peso ~ altura)
Residuals:
Min 1Q Median 3Q Max
-51.1264 -8.1598 -0.7992 6.7584 71.4243
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -44.59251 3.78279 -11.79 <2e-16 ***
altura 0.72120 0.02403 30.01 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 12.16 on 2525 degrees of freedom

(417 observations deleted due to missingness)
Multiple R-squared: 0.2629, Adjusted R-squared: 0.2626
F-statistic: 900.7 on 1 and 2525 DF, p-value: < 2.2e-16
Grfico 1. Grficos de dispersin controlando por altura, cintura y cadera.
> peso.regresion=lm(peso~altura+cintura+cadera)
> summary(peso.regresion)
Call:
lm(formula = peso ~ altura + cintura + cadera)
Residuals:
Min 1Q Median 3Q Max
-47.7359 -4.0489 -0.1967 3.5991 53.8161
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -124.24714 2.53130 -49.08 <2e-16 ***
altura 0.67298 0.01420 47.41 <2e-16 ***
cintura 0.39179 0.01514 25.89 <2e-16 ***
cadera 0.46439 0.01610 28.84 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 7.106 on 2501 degrees of freedom

(439 observations deleted due to missingness)
Multiple R-squared: 0.748, Adjusted R-squared: 0.7477
F-statistic: 2475 on 3 and 2501 DF, p-value: < 2.2e-16
Analysis of Variance Table
Response: peso
Df Sum Sq Mean Sq F value Pr(>F)
altura 1 131976 131976 2613.63 < 2.2e-16 ***
cintura 1 200955 200955 3979.67 < 2.2e-16 ***
cadera 1 42008 42008 831.93 < 2.2e-16 ***
Residuals 2501 126289 50
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Grfico 2. Valores predichos vs. residuos, en regresin de peso=f(altura, cintura,

cadera)
Correlaciones:
> antropometria=cbind(peso,altura,cintura,cadera)
> cor(antropometria, use="pairwise.complete.obs")
peso altura cintura cadera
peso 1.0000000 0.512771864 0.67398220 0.650411615
altura 0.5127719 1.000000000 0.08454247 0.008700766
cintura 0.6739822 0.084542469 1.00000000 0.687275211
cadera 0.6504116 0.008700766 0.68727521 1.000000000

C3.clase de Modelo Lineal General Via Regresion

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

C3.clase de Modelo Lineal General Via Regresion

Загружено:

Авторское право:

Доступные форматы

CLASE DE MODELO LINEAL GENERAL, Y REGRESIN LINEAL SIMPLE Y

El modelo lineal general se puede plantear con la siguiente ecuacin matricial:

Y: Matriz de variables de respuesta:

X: Matriz de variables explicativas (generalmente, una matriz de diseo)

Se supone que los errores se distribuyen segn una distribucin normal

La ltima caracterstica es importante, porque al asumir una distribucin normal,

Regresin Lineal por Mnimos Cuadrados (Gaussiana)

En otras palabras, el Modelo Lineal General engloba varias de las tcnicas

Regresin Lineal simple:

A diferencia de la correlacin, en regresin suponemos que una variable es

A 0 y 1 se les conoce como los parmetros del modelo. La ecuacin de regresin

A la diferencia entre el valor estimado ( y ) y el valor observado (y), se le conoce

Los residuos tambin se pueden expresar como:

Si sumamos todos los residuos, uno puede demostrar que:

Entonces, si nosotros queremos minimizar nuestro error en conjunto, podemos

ei 2 yi 0 1 xi 2 SCE SC. Re sidual

Esto conduce a las frmulas para 0 y 1:

El valor promedio de la variable dependiente cuando la variable independiente es

La variable dependiente cambia en promedio en 1 unidades por cada aumento

La variable dependiente condicional a los valores de la variable

El error estndar para el coeficiente 1 es:

El error estndar para el coeficiente 0 es:

El ajuste del modelo se mide con el coeficiente de determinacin R2. Se puede

Y se interpreta como que el modelo de regresin explica el R2*100% de la

Quiz la ms importante es la segunda, porque si no se rechaza la hiptesis nula,

o sea, Y no vara, excepto por el error. En otras palabras, el modelo no explica la

Tambin se pueden plantear las hiptesis ms generales.

H0: 0 =k, H1: 0 k

Si se usa la estrategia de estadstico de prueba para realizar el contraste de

Regresin lineal mltiple:

La regresin lineal mltiple es una generalizacin de la regresin lineal simple, en

Mantiene los mismos supuestos de la regresin lineal simple:

Adicionalmente, est el supuesto de no colinealidad perfecta.

Adems, se utiliza tambin el R2 para analizar la bondad de ajuste del modelo,

Se tienen tambin las mismas pruebas de hiptesis, y los coeficientes de regresin

El valor promedio de la variable dependiente cuando las variables independientes

La variable dependiente cambia en j unidades por cada aumento de una unidad

Coeficiente de correlacin parcial:

Mide la asociacin lineal (correlacin) entre dos variables X y Y, controlando por

rXY rXZ * rYZ

1. Calcular dos modelos de regresin:

2. Calcular los residuos de la ecuacin de x y la ecuacin de y: e( X ) y e(Y )

Regresin lineal simple:

Residual standard error: 12.16 on 2525 degrees of freedom

Grfico 1. Grficos de dispersin controlando por altura, cintura y cadera.

Residual standard error: 7.106 on 2501 degrees of freedom

Analysis of Variance Table

Grfico 2. Valores predichos vs. residuos, en regresin de peso=f(altura, cintura,

Вам также может понравиться