Taller de Repaso Sobre Ajuste de Un MRLM Con Variables Indicadoras Usando R

Taller ajuste de un MRLM con variables cuantitativas e indicadoras, usando R Estadstica III - 3009137
Seccin 1: Preliminares.
Recuerde que un modelo de regresin es un medio formal para
expresar dos aspectos importantes de una relacin estadstica:
1. Una tendencia de la variable dependiente
que
cambia cuando una o ms variables independientes
cambian en una forma sistemtica.
2. Una dispersin de los puntos alrededor de la relacin
estadstica.
,
donde
es la variable respuesta y , ,
son variables
predictoras o explicatorias y es el trmino de error del modelo
:
que se asume iid 0,
Estas caractersticas se expresan en un modelo de regresin
como:
1. Para cada nivel de una variable explicatoria hay una
distribucin de probabilidad de .
2. Las medias de estas distribuciones de probabilidad
cambian en una forma sistemtica con la variable .
As, el anlisis de regresin es un proceso a travs del cual es
derivada una relacin descriptiva o predictiva entre una variable
respuesta y un conjunto de variables predictoras o
explicatorias, usando datos referentes a estas variables.
El trabajo de anlisis contempla una serie de tareas que pueden
resumirse en las siguientes
1.
2.
3.
4.
5.
6.
7.
Comprensin del problema

Desarrollar
un
anlisis
preliminar:
Anlisis
descriptivos de los datos por ejemplo usando grficos
de dispersin.
Aplicar transformaciones para estabilizar varianza o
para simplificar el modelo.
Seleccionar la forma ms apropiada para el modelo:
Ecuacin(es) de regresin a considerar.
Estimar los parmetros usando paquetes estadsticos.
Evaluar el modelo: Anlisis de los residuales para
evaluar supuestos y calidad del ajuste, tests y grficos
de probabilidad normal, diagnstico de observaciones
atpicas e influnciales, comparar medidas de bondad
de ajuste entre diferentes modelos propuestos,
comparar predicciones y medidas de calidad de
prediccin, interpretar estimaciones de parmetros
que resulten de inters.
Reportar los resultados
Para esto, el analista debe ser hbil en el uso de las

herramientas
computacionales
para
estimar
modelos,
desarrollar interpretaciones de los resultados, analizar
residuales, y permitir la mejora del modelo a travs de
experimentaciones que incluyan observaciones futuras y
traducir sus resultados en trminos comprensibles para el
usuario final del modelo.
En R la funcin disponible para regresin lineal mltiple clsica
es la funcin lm(..) en la cual se formula el modelo usando la
sintaxis de frmulas admisibles, como se ejemplifica a
continuacin,
Frmula
Y~X,
Y~1+X
Y~-1+X,
Y~0+X
log(Y)~X
Y~X1+X2
Y~X+I(X^2)
Y~X1*X2
Modelo a ajustar
log
Corrida con lm(...)

lm(Y~X)
lm(Y~1+X)
lm(Y~-1+X)
lm(Y~0+X)
lm(log(Y)~X)
lm(Y~X1+X2)
lm(Y~X+I(X^2))
lm(Y~X1*X2)
Todos estos modelos ajustados con la funcin lm() son

estimados por mnimos cuadrados ordinarios, es decir, hallando
el vector de parmetros que minimiza la suma de cuadrados de
los errores en un conjunto de observaciones de un tamao
muestral . Recuerde adems que sobre los trminos de un

MRLM se asume lo siguiente:
1. La variable respuesta es una variable aleatoria cuyos
valores se observan mediante la seleccin de los
valores de las variables predictoras en un intervalo de
inters.
2. Las variables predictoras no son consideradas como
variables aletatorias, sino como un conjunto de valores
fijos que representan los puntos de observacin, que
se seleccionan con anticipacin y se miden sin error.
Sin embargo si esto ltimo no se cumple, el mtodo de
mnimos cuadrados ordinarios que es usado para la
estimacin del modelo, puede seguir siendo vlido si
los errores en los valores de las variables predictoras
son pequeos en comparacin con los errores
aleatorios.
3. Los datos que se observan constituyen una muestra
representativa de un medio acerca del cual se desea
generalizar. Si no es as no es apropiado realizar
inferencias en un rango de los datos por fuera del
considerado.
4. El modelo de regresin es lineal en los parmetros. Es
decir, ningn parmetro de la regresin aparece como
el exponente o es dividido o multiplicado por otro
parmetro. Sin embargo, la lnea de ajuste puede tener
una curvatura (no ser lineal en y/o en ), caso en el
cual mediante una transformacin conveniente de las
variables ( y/o ), es posible aplicar las tcnicas de
regresin lineal sobre estas nuevas variables.
5. Si la ecuacin de regresin seleccionada es correcta,
cualquier variabilidad en la variable respuesta que no
puede ser explicada exactamente por dicha ecuacin,
es debida al error aleatorio .
6. Los valores observados de la variable respuesta no se
encuentran estadsticamente correlacionados. Se
supone que cada valor observado de est constituido
por un valor real y una componente aleatoria, de aqu
que tambin se asuma que los errores del modelo son
independientes e idnticamente distribuidos (iid).
Sobre la evaluacin de significancia del modelo de RLM
, recuerde que se usa el test ANOVA:

:
0, (MRLM no es significativo) vs
:
0

1, 2, , (MRLM es significativo)
Cuyo estadstico de prueba bajo H0 y los supuestos sobre el
error
es,
/
/
con
,
1, 2, , ,
la media de los
valores
la estimacin del parmetro
. Para la
observados de
y
.
decisin usamos el valor P calculado como
,
Para los tests de significancia individual de cada uno de los
parmetros, se prueba respectivamente,
:
0 ( no es significativo) vs :
0 ( es significativo)
Cuyo estadstico de prueba bajo H0 y los supuestos sobre el
error es,
, donde
es el error estndar
del parmetro estimado

y el valor P es calculado como
| | . En ambas pruebas el rechazo de H0 ocurre si
el Valor P es pequeo (recuerde que el valor P es la mnima
probabilidad que segn los datos observados se tiene de
equivocarse rechazando la hiptesis nula H0).
Para la evaluacin del modelo en trminos de su calidad de
ajuste y anlisis de residuales, ver en este documento la
Seccin 3 de observaciones.
Consulte en la Seccin 1.3 del documento de Notas de Clase el
resumen de algunas funciones bsicas de R que son utilizadas
en el curso as como el documento pdf sobreRv04.pdf disponible
en Moodle.
Secciin 2: Problem
ma de repaso.
Un grran almacn realiz
r
un exp
perimento para
a investigar los
s
efecto
os de los gastos
s por publicida
ad sobre las ven
ntas semanales
s
de su
us secciones de
e ropa para caballeros (A), pa
ara nios (B) y
para damas (C). Se
S seleccionaro
on al azar 5 semanas para
a
a seccin, y se asign un pre
esupuesto para
a
obserrvacin en cada
public
cidad (X1, en cientos de dlares)
d
a cad
da una de las
s
seccio
ones. Las ven
ntas semanales
s (en miles de
e dlares), los
s
gastos
s de publicidad
d en cada uno de las tres sec
cciones en cada
a
una d
de las cinco se
emanas del estu
udio se listan en la siguiente
e
tabla..
SEC
A
A
A
A
A
B
B
B
B
B
C
C
C
C
C
datos=rea
ad.table(file. choose(),heade
er=T,skip=6,sep
p=";",dec=".")
datos
A
B
C
2. Ancla ndo las variab

bles guardada
as en el data.fframe. Funcin
n
attach( )
18
20
22
R
Realice un gr
fico de dispers
sin para analiizar la relacin
n
e
entre las venta
as y los gastos de publicid
dad segn las
s
s
secciones y glob
balmente.
P
Postule y ajuste un MRLM pa
ara estudiar los efectos que las
s
s
secciones del allmacn puedan
n tener sobre la
a relacin de las
s
v
ventas versus los gastos de publicidad. Considere
C
como
o
n
nivel de referencia de la variab
ble SEC a la C.
P
Postule y ajustte un MRLM en donde se considere que en
n
p
promedio el efe
ecto de los gastos en public
cidad sobre las
s
v
ventas es el miismo para las tres
t
secciones, pero la media
a
d
de las ventas es diferente.. Considere como
c
nivel de
e
rreferencia de la variable SEC a la C. Analice residuos.
r
C
Con base en el
e modelo anterrior, Analice ajjuste y prediga
a
lo
os gastos de publicidad en
n los puntos de prediccin
n
in
ndicados en la Tabla siguiente
e.
Obs. X1 SEC
1
6
A
2
11
C
attach(da
atos)
16
3. Repressentacin grffica de los dattos por grfico

o de dispersin
n.
Funcionees plot( ), as.nu
umeric( ) y lege
end( )
4.
Otra
fo
orma:
Leer
archivo extterno creado
previamente
e,
DATOSP
PROBLEMAGAS
STOSPUBLICID
DAD.csv. funciin read.table(()
14
3.
datos=dat
ta.frame(scan( what=list(SEC=
="",X1=0,Y=0)))
)
A 5.2 9
A 5.9 10
A 7.7 12
A 7.9 12
A 9.4 14
B 8.2 13
B 9.0 13
B 9.1 12
B 10.5 13
3
B 10.5 14
4
C 10.0 18
8
C 10.3 19
9
C 12.1 20
0
C 12.7 21
1
C 13.6 22
2
datos
plot(X1,Y
Y,pch=as.numer ic(SEC),col=as
s.numeric(SEC),
,xlab="X1",
yla
ab="Y",cex=2,c ex.lab=1.5)
12
2.
Y
9
10
12
12
14
13
13
12
13
14
18
19
20
21
22
topleft",legen d=c("A","B","C
C"),pch=c(1:3),
,col=c(1:3),
legend("t
c
cex=1.5)
10
1.
X1
1
5.2
2
5.9
9
7.7
7
7.9
9
9.4
4
8.2
2
9.0
0
9.1
1
10.5
5
10.5
5
10.0
0
10.3
3
12.1
1
12.7
7
13.6
6
Progrrama R necesa
ario y resultad
dos.
1. Lecturra de los datoss y definicin de variables
Una form
ma: Ingresar datos por te
eclado, con fu
uncin scan( )
combinad
da con funci
n data.fram
me( ), como se muestra a
continuaccin; as se creea un marco d
de datos (objeto
o tabular cuyas
columnass son variables)
10
12
X1
Figu
ura 1. Grfico de dis
spersin Y vs. X1
4. Escogiiendo nivel de
e referencia pa
ara SEC. Se tom
ma la seccin C.
C
Funcin rrelevel( )
SEC=relev
vel(SEC,ref="C ")
SEC
Signif. Codes:0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 0.6044 on 11 degrees of freedom
Multiple R-squared: 0.983,
Adjusted R-squared: 0.9784
F-statistic:
212 on 3 and 11 DF, p-value: 5.186e-10
en modelo
X1n=c(6,11)
SECn=c("A","C")
predict(modelo2,newdata=data.frame(X1=X1n,SEC=SECn),
interval="prediction",level=0.95)
9. Anlisis grfico ajuste en modelo 2. Funciones win.graph( ),

plot( ), as.numeric( ), legend( ), lines( ), fitted( )
win.graph()
plot(X1,Y,pch=as.numeric(SEC),col=as.numeric(SEC),xlab="X1",
ylab="Y",cex=1.5,cex.lab=1.5)
-1.0
residuals(modelo2)
shapiro.test(residuals(modelo2))
8. Prediccin para
,
A y
2. Funcin c( ), predict( ) y data.frame( )
C
A
B
1.0
7.2. Test de normalidad en modelo 2. Funciones shapiro.test( ) y

residuals( )
1.0
qqnorm(residuals(modelo2),pch=as.numeric(SEC),
col=as.numeric(SEC),cex=1.5)
qqline(residuals(modelo2),col=2)
legend("topleft",legend=c("C","A","B"),pch=c(1:3),col=c(1:3),
cex=1.5)
Max
1.21398
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
8.6888
1.4455
6.011 8.79e-05 ***
X1
0.9635
0.1210
7.966 6.80e-06 ***
SECA
-4.2451
0.6671 -6.363 5.34e-05 ***
SECB
-4.8033
0.4714 -10.190 6.12e-07 ***
0.5
plot(X1,residuals(modelo2),pch=as.numeric(SEC),
abline(h=0)
cex=1.5)
3Q
0.29767
C
A
B
0.0
plot(fitted(modelo2),residuals(modelo2),pch=as.numeric(SEC),
abline(h=0)
cex=1.5)
Salidas R modelo 2
Call:
lm(formula = Y ~ X1 + SEC)
Residuals:
Min
1Q
Median
-1.00202 -0.33520 -0.00202
residuals(modelo2)
win.graph()
layout(rbind(c(1,1,2,2),c(0,3,3,0)))
Signif. Codes:0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 0.4709 on 9 degrees of freedom
Multiple R-squared: 0.9916,
Adjusted R-squared: 0.9869
F-statistic: 211.4 on 5 and 9 DF, p-value: 4.782e-09
-0.5
7. Anlisis de residuales modelo 2:

7.1. Grficos de residuos
vs.
,
vs.
y Grfico de
probabilidad normal sobre residuos. Funciones win.graph( ),
layout( ), rbind(), plot( ), fitted( ), residuals( ), as.numeric( ),
abline( ), qqnorm( ), qqline( ) y legend( )
-1.0
modelo2=lm(Y~X1+SEC)
summary(modelo2)
Max
0.64418
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
8.2747
1.7957
4.608 0.001276 **
X1
0.9988
0.1519
6.575 0.000102 ***
SECA
-5.2429
2.0724 -2.530 0.032243 *
SECB
1.4888
2.8494
0.522 0.613946
X1:SECA
0.1603
0.2068
0.775 0.458127
X1:SECB
-0.6566
0.2780 -2.362 0.042452 *
0.5
6. Modelo 2. Ajuste del modelo de pendientes iguales pero nivel

medio diferente. El efecto promedio de X1 sobre Y es el mismo en
las tres secciones pero el nivel de ventas es diferente (Nivel de
referencia la Seccin C),
,
0,
Funciones lm( ) y summary( )
3Q
0.14985
0.0
modelo1=lm(Y~X1*SEC)
summary(modelo1)
Salidas R modelo 1
Call:
lm(formula = Y ~ X1 * SEC)
Residuals:
Min
1Q
Median
-0.87683 -0.22516 0.04366
-0.5
5. Modelo 1. Ajuste del modelo ms general. Relacin lineal de Y

vs. X1 es diferente segn la Seccin (Nivel de referencia la Seccin
C),
,
0,
,
,
Funciones lm( ) y summary( )
10
12
14
16
18
20
22
fitted(modelo2)
10
X1
0.5
-0.5
0.0
C
A
B
C
A
B
-1.0
20
22
detach(datos)
Sample Quantiles
10. Desanclando las variables en el data.frame. Funcin detach()
1.0
Normal Q-Q Plot
legend("topleft",legend=c("C","A","B"),pch=1:3,col=1:3,cex=1.5)
lines(X1[SEC=="C"],fitted(modelo2)[SEC=="C"],col=1,lty=1,lwd=2)
lines(X1[SEC=="A"],fitted(modelo2)[SEC=="A"],col=2,lty=2,lwd=2)
lines(X1[SEC=="B"],fitted(modelo2)[SEC=="B"],col=3,lty=3,lwd=2)
18
-1
16
Figura 3. Grficos de residuales y de normalidad en modelo 2
12
14
Salida R test Shapiro Wilk modelo 2

Shapiro-Wilk normality test
data: residuals(modelo2)
W = 0.9805, p-value = 0.9727
10
Theoretical Quantiles
10
12
X1
Figura 2. Grfica del ajuste con modelo 2
Salida R pronsticos modelo 2

fit
lwr
upr
1 10.22456 8.731486 11.71762
2 19.28703 17.816454 20.75760
12
A continuacin se muestran los resultados numricos R de los modelos

1 y 2 debidamente editados. Compare con las salidas originales de R
previamente presentadas.
Tabla de estimacin modelo 1, resultados editados
Error
| | | |
Parmetro
Estimacin
T0
Estndar
8.275
1.796
4.608
0.001
0.999
0.152
6.575
0.000
-5.243
2.072
-2.530
0.032
1.489
2.849
0.522
0.614
0.160
0.207
0.775
0.458
,
-0.657
0.278
-2.362
0.042
,
0.4709,
0.9869,
211.4,
4.782 10
Luego, la ecuacin general ajustada en el modelo 1 corresponde a

5.243
1.489
0.160
0.657
8.275 0.999
Por seccin, se tendra que
1,
0):
En Seccin A (
8.275 5.243
0.999
0.160
3.032
1.159
0,
1):
En Seccin B (
8.275 1.489
0.999
0.657
9.764
0.342
En Seccin C (
0,
Para la observacin 1 donde X1=6, SEC=A

4.444 0.963 6
Recuerde que bajo los supuestos sobre los errores del MRLM, el I.P de
(bajo las
nivel (1
)100% para un valor futuro de la respuesta
condiciones del vector , que indica el valor futuro considerado para
cada una de las variables explicatorias en el MRLM), se calcula de
manera general como
.
/ ,
en
es el valor pronosticado segn la ecuacin ajustada evaluada
, .
1
2

Error
| | | |
Estimacin
T0
Estndar
8.689
1.445
6.011
0.000
0.963
0.121
7.966
0.000
-4.245
0.667
-6.363
0.000
-4.803
0.471
-10.190
0.000
0.6044,
0.9784,
212,
5.186 10
,
Parmetro
es el error estndar del error de pronstico
es el nmero de predictores en la ecuacin de regresin (en el

modelo 2,
3).
Obs.
0.999
10.222
Para la observacin 2 donde X1=11, SEC=C

8.689 0.963 11 19.282
Donde
0):
8.275
Para los pronsticos con el modelo 2, se identifica la seccin para cada

punto de pronstico y se usa la ecuacin ajustada correspondiente,
evaluada en el valor dado a X1.
Pronsticos con modelo 2 y sus I.P del 95%

Lmite
Vector
Pronstico
Inferior
6,
1,
0
10.225
8.731
11,
0,
0
19.287
17.816
Lmite
superior
11.718
20.758
Los resultados editados del test de normalidad con los residuales del
modelo 2 se muestran a continuacin
Test de normalidad con residuales del modelo 2
Mtodo
W
VP
0.9805
0.9727
La ecuacin general ajustada en el modelo 2 corresponde a

8.689 0.963
4.245
4.803
Donde la hiptesis a probar es

H0: Los errores del modelo normales
H1: Los errores del modelo no tienen distribucin normal
Por seccin se tendra,

1,
En Seccin A (
8.689
0):
4.245
0.963
4.444
0.963
Recuerde que la evaluacin del test de normalidad exige previamente

la validacin del supuesto de incorrelacin. Si este supuesto no se
cumple, no es apropiado aplicar el test de normalidad.
0,
8.689
1):
4.803
0.963
3.886
0.963
En Seccin B (
En Seccin C (
0,
0):
8.689
0.963
Seccin 3: Observaciones
Medidas de bondad de ajuste en un MRLM
Varianza no constante. Puede manifestarse a travs de alguno de los
Recuerde que
patrones que se ilustran a continuacin.
representa la variabilidad explicada por el modelo
y sus grados de libertad corresponden al nmero de predictores en el
1 .
respuesta y sus grados de libertad iguales a
^
E
representa la variabilidad total observada en la
^
E
modelo.
representa la variabilidad no explicada por el
modelo y sus grados de libertad iguales a

1
^
Y
es la proporcin de la variabilidad total observada
en la respuesta, que es explicada por el modelo.

y
. Luego,
no es la proporcin de variabilidad total
^
E
R2adj R2 es decir,
, donde
^
E
explicada, simplemente una medida de calidad del ajuste que mientras

ms prxima de 1 es mejor, y en algunos casos puede llegar a ser
negativa indicando un ajuste muy malo.
^
Y
2. Sobre la evaluacin de los supuestos en un MRLM
Figura 5. Ejemplo patrones de varianza no constante aunque no hay carencia de ajuste
En cualquier modelo de RLM es necesario validar que
Carencia de ajuste aunque varianza es constante. Este es un patrn
a) Hay incorrelacin en los errores del modelo. Este supuesto ud. lo
anmalo identificado grficamente como un patrn en U o U invertida,
asumi vlido en el curso de estadstica II, considerando que el diseo
con brazos de amplitud aproximadamente iguales, como se ilustra a
muestral que fue seguido y la forma en que se obtuvieron los datos
continuacin, lo que indica la falta de un trmino no lineal en la
garantiza la independencia entre las observaciones. Pero tenga en
relacin postulada de Y vs. algn predictor cuantitativo en el modelo
cuenta que si no hay incorrelacin entre los errores del modelo, no

puede evaluarse el supuesto de normalidad, desde que cualquier
prueba de bondad de ajuste a alguna distribucin estadstica exige que
^
E
0
por definicin se compone de observaciones iid (independientes y
^
E
los datos sobre la cual se realiza constituyan una muestra aleatoria, que
provenientes de una misma distribucin).

b) La varianza es constante y no hay carencia de ajuste. Al evaluar
valores ajustados y residuos vs. cada predictor cuantitiativo, se espera
^
Y
grficamente este supuesto mediante los grficos de residuos vs.
Figura 6. Ejemplo de patrn de carencia de ajuste aunque varianza es constante
Varianza no constante y carencia de ajuste lineal. Identificado por la
un patrn como se ilustra a continuacin
presencia de patrones en U donde la U no tiene brazos de la misma
^
E
^
E
^
E
^
E
amplitud, como se ve en la Figura 7.
^
Y
Figura 4 Patrones deseados en residuales
Patrones anmalos, es decir, que evidencian invalidez de supuestos

sobre homogeneidad de varianza y/o carencia de ajuste muestran
alejamiento del patrn ilustrado en la Figura 4.
^
Y
Figura 7. Ejemplo patrn de varianza no constante y carencia de ajuste combinados
c) Normalidad para los errores del modelo. Puede chequearse desde

que sea vlido que existe incorrelacin en los valores de esta variable.
La normalidad se chequea a travs del grfico de probabilidad normal,
en el que se espera que la nube de puntos caiga sobre la recta de
20
0.5
0.0
residuals(modelo2)
1.0
C
A
B
-1.0
-0.5
1.0
10
12
14
16
18
20
22
10
12
X1
fitted(modelo2)
Normal Q-Q Plot
Figura 8. Patrn esperado en grfico de probabilidad normal
-0.5
Patrones de no normalidad. En la Figura 9 se ilustran los patrones
0.5
-1
C
A
B
0.0
-2
Sample Quantiles
-40
1.0
-20
Sample Quantiles
0.5
-1.0
40
Normal Q-Q Plot
0.0
estimados bajo supuesto de normalidad, como se ilustra a continuacin
residuals(modelo2)
cuantiles muestrales de los residuales vs. los cuantiles tericos
C
A
B
-0.5
probabilidad normal, mostrando una asociacin lineal entre los
-1.0
mostrados cuando no es cierto que la distribucin de los datos

proviene de una normal.
-1
Normal Q-Q Plot
Normal Q-Q Plot
0.55
15
Figura 10. Residuales y grfico de probabilidad normal obtenidos para el modelo 2
0.45
0.40
10
Sample Quantiles
De acuerdo a las grficas de residuales, se concluye que

a) Dado que es mayor la dispersin respecto a la lnea horizontal que
0.35
Sample Quantiles
0.50
Test de normalidad con residuales del modelo 2

Mtodo
W
VP
0.9805
0.9727
0.30
pasa por cero para los residuos correspondientes a la seccin B
-2
-1
-2
-1
+) que la que muestran los residuos para las otras dos
secciones, se concluye que no hay validez del supuesto de varianza
Normal Q-Q Plot
b) Observando los residuales para la seccin A (smbolo ) , parece que
existe un patrn lineal en estos puntos con pendiente positiva, eso da
indicio de que posiblemente el modelo est mal especificado. Recuerde
-2
constante segn la seccin;
que el modelo 2 asume que las pendientes de las rectas de Y vs. X1 en

cada seccin son iguales pero ste puede ser un supuesto errneo.
-4
Sample Quantiles
(smbolo
-2
-1
Mire de nuevo el grfico de dispersin de los datos presentados en la
Figura 9. Patrones de no normalidad. Arriba izq. Distribucin de cola derecha; arriba der.
solucin del taller, en la Figura 1.
Distribucin de cola izquierda; Abajo, distribucin simtrica de colas pesadas
De acuerdo al grfico y al test de normalidad (ver valor P) no hay
La normalidad tambin puede evaluarse mediante el test de Shapiro-
evidencia en contra del supuesto de que los errores del modelo
Wilk y respecto a los errores del modelo, se aplicara usando los
provengan de una distribucin normal.
residuales del modelo.
NOTA: Segn el diseo muestral y la forma en que se obtuvieron los
NOTA: Puede haber desacuerdo entre el test y el grfico de
datos para el problema descrito en este taller de repaso, podemos
normalidad. En tal caso tener en cuenta que el grfico de probabilidad
asumir la independencia y por tanto la incorrelacin entre los errores,
debe ser la herramienta principal para la decisin final.
es decir,
3. Validacin de supuestos para el modelo 2: Recuerde que el modelo
caso s podemos proceder con la evaluacin del supuesto de
2 postulado fue
normalidad con la grfica y el test Shapiro-Wilk.

,
0,
0,
, ,
1, 2, , , por lo que en este
4. Interpretaciones de parmetros estimados en el modelo 2. La
X1=Gasto semanal en publicidad, I1=indicadora de la Seccin A y
interpretacin que se ver a continuacin slo es vlida en el modelo 2,
I2=indicadora de la Seccin B y Y=ventas semanales
es decir, no puede aplicarse en el caso del modelo 1 postulado en el
Las grficas de residuales obtenidas fueron las siguientes
taller, donde se asume que la relacin lineal entre Y y X1 cambia segn

la seccin (o sea, en el modelo donde las rectas son diferentes tanto en
pendiente como en intercepto). Segn la tabla de parmetros ajustados,

Error
| | | |
Parmetro
Estimacin
T0
Estndar
8.689
1.445
6.011
8.79 10
0.963
0.121
7.966
6.80 10
-4.245
0.667
-6.363
5.34 10
-4.803
0.471
-10.190
6.12 10
0.6044,
0.9784,
212,
5.186 10
Pronsticos con modelo 2 y sus I.P del 95% (miles de dlares)

Lmite
Lmite
Vector
Obs.
Pronstico
Inferior
superior
6,
1,
0
1
11.718
10.225
8.731
11,
0,
0
2
20.758
19.287
17.816
Entonces, se tiene que en la seccin de caballeros (A) se pronostica que

si se gastan 6 mil dlares en publicidad en una semana, las ventas en
se tiene que (recuerde que cada unidad representa mil dlares):
tal semana sern de 10225 dlares y que el verdadero valor de las
indica evidencia
ventas podr estar entre 8731 y 11718 dlares con un 95% de confianza,
de la significancia de este parmetro y por tanto podemos hacer la
mientras que en la seccin de damas (C) se pronostica que si se gastan
0, pues valor P=
a)
| |
6.80 10
0.9635: Se estima que en promedio por
siguiente conclusin con
11
mil
dlares
en
publicidad
en
una
semana,
las
ventas
cada mil dlares que se incremente el gasto en publicidad (X1) en una
correspondientes sern de 19287 dlares y que el verdadero valor de
semana (en cualquiera de las tres secciones) habr un incremento en
las ventas podr estar entre 17816 y 20758 dlares con un 95% de
963.5 dlares en las ventas.
confianza.
0, pues valor P=
b)
| |
5.34 10
indica evidencia
de la significancia de este parmetro y podemos hacer la siguiente
NOTA: Es muy importante valorar la precisin de los pronsticos a
4.2451: Se estima que para un mismo nivel de
travs de los I.P, esto se hace evaluando tanto la amplitud del intervalo
gasto en publicidad semanal (X1), el promedio de ventas en la Seccin
(diferencia entre los lmites superior e inferior) como la cobertura
A es menor (debido al signo menos) al promedio de ventas en la
(proporcin de los I.P calculados que contienen el verdadero valor que
Seccin de referencia (Seccin C) en 4245.1 dlares.
se observe para la variable respuesta), de forma que a menor longitud
conclusin con
0, pues valor P=
c)
| |
6.12 10
indica evidencia
de la significancia de este parmetro y podemos hacer la siguiente

4.8033: Se estima que para un mismo nivel de
conclusin con
gasto en publicidad semanal (X1), el promedio de ventas en la Seccin

B es menor (debido al signo menos) al promedio de ventas en la
Seccin de referencia (Seccin C) en 4803.3 dlares.
NOTA: En el modelo 2, se tiene que para las secciones A, B, y C, el
valor esperado de Y es, respectivamente,
| 1,
| 1,
| 1,
Luego, si fijamos a X1 en un mismo valor
en las tres secciones y
calculamos las diferencias de las medias de las secciones A y B respecto

a la C, tenemos que,
| 1
| 1
| 1
| 1
De aqu que las estimaciones para
,
,
y
sean interpretadas en
trminos de la estimacin de la diferencia entre el promedio de las

ventas en la seccin correspondiente vs. el promedio en la seccin de
referencia, que para el ejemplo es la C, para un mismo valor del gasto
semanal en publicidad (X1).
5. Interpretacin de pronsticos puntuales y de intervalos de
pronstico (I.P). Un pronstico puntual habla sobre el valor que se
estima tomar exactamente la variable respuesta, segn el modelo,
cuando se considera un valor particular para los predictores (una obs.
nueva) mientras que su I.P es el intervalo en el cual, con un nivel de
confianza dado, estar el verdadero valor de la variable respuesta. Por
ej. Considerando los resultados de las dos predicciones pedidas con el
modelo 2,
y mayor cobertura promedios, mejor es la calidad de los pronsticos

por intervalos de pronsticos.
Seccin 4. Programacin R completa usada sobre datos del taller

Este cdigo puede editarse en un archivo R de edicin (un script, creado por men Archivo) y guardarse con extensin .R
#Lectura de los datos por teclado
datos=data.frame(scan(what=list(SEC="",X1=0,Y=0)))
A 5.2 9
A 5.9 10
A 7.7 12
A 7.9 12
A 9.4 14
B 8.2 13
B 9.0 13
B 9.1 12
B 10.5 13
B 10.5 14
C 10.0 18
C 10.3 19
C 12.1 20
C 12.7 21
C 13.6 22
datos
#o bien, Lectura de los datos desde archivo DATOSPROBLEMAGASTOSPUBLICIDAD.csv
datos=read.table(file.choose(),header=T,skip=6,sep=";",dec=".")
datos
#Anclando variables del data.frame
attach(datos)
#Grfico de dispersin con representacin de las secciones
plot(X1,Y,pch=as.numeric(SEC),col=as.numeric(SEC),xlab="X1",ylab="Y",cex=2,cex.lab=1.5)
legend("topleft",legend=c("A","B","C"),pch=c(1:3),col=c(1:3),cex=1.5)
SEC=relevel(SEC,ref="C") #Definiendo como nivel de referencia a la seccin C
#El orden de los niveles para SEC queda como C, A, y B
SEC
#Ajuste modelo 1
modelo1=lm(Y~X1*SEC)
summary(modelo1)
#Ajuste modelo 2
modelo2=lm(Y~X1+SEC)
summary(modelo2)
#Anlisis de residuales en modelo 2
win.graph()
layout(rbind(c(1,1,2,2),c(0,3,3,0)))
#Residuales vs. valores ajustados, con representacin de las secciones
plot(fitted(modelo2),residuals(modelo2),pch=as.numeric(SEC),col=as.numeric(SEC),cex=1.5)
abline(h=0)
legend("topleft",legend=c("C","A","B"),pch=c(1:3),col=c(1:3),cex=1.5)
#Residuales vs. predictor cuantitativo X1, con representacin de las secciones
plot(X1,residuals(modelo2),pch=as.numeric(SEC),col=as.numeric(SEC),cex=1.5)
abline(h=0)
#Grfico de probabilidad normal sobre residuos modelo 2, con representacin de las secciones
qqnorm(residuals(modelo2),pch=as.numeric(SEC),col=as.numeric(SEC),cex=1.5)
qqline(residuals(modelo2),col=2)
#Test de normalidad sobre residuos
shapiro.test(residuals(modelo2))
#predicciones en modelo 2 en las dos nuevas observaciones
X1n=c(6,11)
SECn=c("A","C")
predict(modelo2,newdata=data.frame(X1=X1n,SEC=SECn),interval="prediction",level=0.95)
#Grfico del ajuste en modelo 2, con representacin de las secciones
win.graph()
plot(X1,Y,pch=as.numeric(SEC),col=as.numeric(SEC),xlab="X1",ylab="Y",cex=1.5,cex.lab=1.5)
legend("topleft",legend=c("C","A","B"),pch=1:3,col=1:3,cex=1.5)
lines(X1[SEC=="C"],fitted(modelo2)[SEC=="C"],col=1,lty=1,lwd=2)
lines(X1[SEC=="A"],fitted(modelo2)[SEC=="A"],col=2,lty=2,lwd=2)
lines(X1[SEC=="B"],fitted(modelo2)[SEC=="B"],col=3,lty=3,lwd=2)
detach(datos) #desanclando las variables en data.frame

Taller de Repaso Sobre Ajuste de Un MRLM Con Variables Indicadoras Usando R

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Taller de Repaso Sobre Ajuste de Un MRLM Con Variables Indicadoras Usando R

Загружено:

Авторское право:

Доступные форматы

Taller ajuste de un MRLM con variables cuantitativas e indicadoras, usando R Estadstica III - 3009137

Comprensin del problema

Para esto, el analista debe ser hbil en el uso de las

Corrida con lm(...)

Todos estos modelos ajustados con la funcin lm() son

muestral . Recuerde adems que sobre los trminos de un

, recuerde que se usa el test ANOVA:

del parmetro estimado

2. Ancla ndo las variab

3. Repressentacin grffica de los dattos por grfico

Signif. Codes:0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

9. Anlisis grfico ajuste en modelo 2. Funciones win.graph( ),

7.2. Test de normalidad en modelo 2. Funciones shapiro.test( ) y

Signif. Codes:0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

7. Anlisis de residuales modelo 2:

6. Modelo 2. Ajuste del modelo de pendientes iguales pero nivel

5. Modelo 1. Ajuste del modelo ms general. Relacin lineal de Y

10. Desanclando las variables en el data.frame. Funcin detach()

Normal Q-Q Plot

Figura 3. Grficos de residuales y de normalidad en modelo 2

Salida R test Shapiro Wilk modelo 2

Figura 2. Grfica del ajuste con modelo 2

Salida R pronsticos modelo 2

A continuacin se muestran los resultados numricos R de los modelos

Luego, la ecuacin general ajustada en el modelo 1 corresponde a

Para la observacin 1 donde X1=6, SEC=A

es el valor pronosticado segn la ecuacin ajustada evaluada

Tabla de estimacin modelo 2, resultados editados

es el error estndar del error de pronstico

es el nmero de predictores en la ecuacin de regresin (en el

Para la observacin 2 donde X1=11, SEC=C

Para los pronsticos con el modelo 2, se identifica la seccin para cada

Pronsticos con modelo 2 y sus I.P del 95%

La ecuacin general ajustada en el modelo 2 corresponde a

Donde la hiptesis a probar es

Por seccin se tendra,

Recuerde que la evaluacin del test de normalidad exige previamente

Varianza no constante. Puede manifestarse a travs de alguno de los

patrones que se ilustran a continuacin.

representa la variabilidad explicada por el modelo

y sus grados de libertad corresponden al nmero de predictores en el

respuesta y sus grados de libertad iguales a

representa la variabilidad total observada en la

representa la variabilidad no explicada por el

modelo y sus grados de libertad iguales a

es la proporcin de la variabilidad total observada

en la respuesta, que es explicada por el modelo.

no es la proporcin de variabilidad total

explicada, simplemente una medida de calidad del ajuste que mientras

2. Sobre la evaluacin de los supuestos en un MRLM

Figura 5. Ejemplo patrones de varianza no constante aunque no hay carencia de ajuste

En cualquier modelo de RLM es necesario validar que

Carencia de ajuste aunque varianza es constante. Este es un patrn

a) Hay incorrelacin en los errores del modelo. Este supuesto ud. lo

anmalo identificado grficamente como un patrn en U o U invertida,

asumi vlido en el curso de estadstica II, considerando que el diseo

con brazos de amplitud aproximadamente iguales, como se ilustra a

muestral que fue seguido y la forma en que se obtuvieron los datos

continuacin, lo que indica la falta de un trmino no lineal en la

garantiza la independencia entre las observaciones. Pero tenga en

relacin postulada de Y vs. algn predictor cuantitativo en el modelo

cuenta que si no hay incorrelacin entre los errores del modelo, no

por definicin se compone de observaciones iid (independientes y

provenientes de una misma distribucin).

Signif. Codes:0 * 0.001 0.01 * 0.05 . 0.1 1

Signif. Codes:0 * 0.001 0.01 * 0.05 . 0.1 1