Вы находитесь на странице: 1из 8

Taller ajuste de un MRLM con variables cuantitativas e indicadoras, usando R Estadstica III - 3009137

Seccin 1: Preliminares.
Recuerde que un modelo de regresin es un medio formal para
expresar dos aspectos importantes de una relacin estadstica:
1. Una tendencia de la variable dependiente
que
cambia cuando una o ms variables independientes
cambian en una forma sistemtica.
2. Una dispersin de los puntos alrededor de la relacin
estadstica.

,
donde
es la variable respuesta y , ,
son variables
predictoras o explicatorias y es el trmino de error del modelo
:
que se asume iid 0,
Estas caractersticas se expresan en un modelo de regresin
como:
1. Para cada nivel de una variable explicatoria hay una
distribucin de probabilidad de .
2. Las medias de estas distribuciones de probabilidad
cambian en una forma sistemtica con la variable .
As, el anlisis de regresin es un proceso a travs del cual es
derivada una relacin descriptiva o predictiva entre una variable
respuesta y un conjunto de variables predictoras o
explicatorias, usando datos referentes a estas variables.
El trabajo de anlisis contempla una serie de tareas que pueden
resumirse en las siguientes
1.
2.
3.
4.
5.
6.

7.

Comprensin del problema


Desarrollar
un
anlisis
preliminar:
Anlisis
descriptivos de los datos por ejemplo usando grficos
de dispersin.
Aplicar transformaciones para estabilizar varianza o
para simplificar el modelo.
Seleccionar la forma ms apropiada para el modelo:
Ecuacin(es) de regresin a considerar.
Estimar los parmetros usando paquetes estadsticos.
Evaluar el modelo: Anlisis de los residuales para
evaluar supuestos y calidad del ajuste, tests y grficos
de probabilidad normal, diagnstico de observaciones
atpicas e influnciales, comparar medidas de bondad
de ajuste entre diferentes modelos propuestos,
comparar predicciones y medidas de calidad de
prediccin, interpretar estimaciones de parmetros
que resulten de inters.
Reportar los resultados

Para esto, el analista debe ser hbil en el uso de las


herramientas
computacionales
para
estimar
modelos,
desarrollar interpretaciones de los resultados, analizar
residuales, y permitir la mejora del modelo a travs de
experimentaciones que incluyan observaciones futuras y
traducir sus resultados en trminos comprensibles para el
usuario final del modelo.
En R la funcin disponible para regresin lineal mltiple clsica
es la funcin lm(..) en la cual se formula el modelo usando la
sintaxis de frmulas admisibles, como se ejemplifica a
continuacin,
Frmula
Y~X,
Y~1+X
Y~-1+X,
Y~0+X
log(Y)~X
Y~X1+X2
Y~X+I(X^2)
Y~X1*X2

Modelo a ajustar

log

Corrida con lm(...)


lm(Y~X)
lm(Y~1+X)
lm(Y~-1+X)
lm(Y~0+X)
lm(log(Y)~X)
lm(Y~X1+X2)
lm(Y~X+I(X^2))
lm(Y~X1*X2)

Todos estos modelos ajustados con la funcin lm() son


estimados por mnimos cuadrados ordinarios, es decir, hallando
el vector de parmetros que minimiza la suma de cuadrados de
los errores en un conjunto de observaciones de un tamao

muestral . Recuerde adems que sobre los trminos de un


MRLM se asume lo siguiente:
1. La variable respuesta es una variable aleatoria cuyos
valores se observan mediante la seleccin de los
valores de las variables predictoras en un intervalo de
inters.
2. Las variables predictoras no son consideradas como
variables aletatorias, sino como un conjunto de valores
fijos que representan los puntos de observacin, que
se seleccionan con anticipacin y se miden sin error.
Sin embargo si esto ltimo no se cumple, el mtodo de
mnimos cuadrados ordinarios que es usado para la
estimacin del modelo, puede seguir siendo vlido si
los errores en los valores de las variables predictoras
son pequeos en comparacin con los errores
aleatorios.
3. Los datos que se observan constituyen una muestra
representativa de un medio acerca del cual se desea
generalizar. Si no es as no es apropiado realizar
inferencias en un rango de los datos por fuera del
considerado.
4. El modelo de regresin es lineal en los parmetros. Es
decir, ningn parmetro de la regresin aparece como
el exponente o es dividido o multiplicado por otro
parmetro. Sin embargo, la lnea de ajuste puede tener
una curvatura (no ser lineal en y/o en ), caso en el
cual mediante una transformacin conveniente de las
variables ( y/o ), es posible aplicar las tcnicas de
regresin lineal sobre estas nuevas variables.
5. Si la ecuacin de regresin seleccionada es correcta,
cualquier variabilidad en la variable respuesta que no
puede ser explicada exactamente por dicha ecuacin,
es debida al error aleatorio .
6. Los valores observados de la variable respuesta no se
encuentran estadsticamente correlacionados. Se
supone que cada valor observado de est constituido
por un valor real y una componente aleatoria, de aqu
que tambin se asuma que los errores del modelo son
independientes e idnticamente distribuidos (iid).
Sobre la evaluacin de significancia del modelo de RLM

, recuerde que se usa el test ANOVA:


:

0, (MRLM no es significativo) vs
:
0


1, 2, , (MRLM es significativo)
Cuyo estadstico de prueba bajo H0 y los supuestos sobre el
error

es,

/
/

con

,
1, 2, , ,
la media de los
valores
la estimacin del parmetro
. Para la
observados de
y
.
decisin usamos el valor P calculado como
,
Para los tests de significancia individual de cada uno de los
parmetros, se prueba respectivamente,
:
0 ( no es significativo) vs :
0 ( es significativo)
Cuyo estadstico de prueba bajo H0 y los supuestos sobre el
error es,

, donde

es el error estndar

del parmetro estimado


y el valor P es calculado como
| | . En ambas pruebas el rechazo de H0 ocurre si
el Valor P es pequeo (recuerde que el valor P es la mnima
probabilidad que segn los datos observados se tiene de
equivocarse rechazando la hiptesis nula H0).
Para la evaluacin del modelo en trminos de su calidad de
ajuste y anlisis de residuales, ver en este documento la
Seccin 3 de observaciones.
Consulte en la Seccin 1.3 del documento de Notas de Clase el
resumen de algunas funciones bsicas de R que son utilizadas
en el curso as como el documento pdf sobreRv04.pdf disponible
en Moodle.

Secciin 2: Problem
ma de repaso.
Un grran almacn realiz
r
un exp
perimento para
a investigar los
s
efecto
os de los gastos
s por publicida
ad sobre las ven
ntas semanales
s
de su
us secciones de
e ropa para caballeros (A), pa
ara nios (B) y
para damas (C). Se
S seleccionaro
on al azar 5 semanas para
a
a seccin, y se asign un pre
esupuesto para
a
obserrvacin en cada
public
cidad (X1, en cientos de dlares)
d
a cad
da una de las
s
seccio
ones. Las ven
ntas semanales
s (en miles de
e dlares), los
s
gastos
s de publicidad
d en cada uno de las tres sec
cciones en cada
a
una d
de las cinco se
emanas del estu
udio se listan en la siguiente
e
tabla..
SEC
A
A
A
A
A
B
B
B
B
B
C
C
C
C
C

datos=rea
ad.table(file. choose(),heade
er=T,skip=6,sep
p=";",dec=".")
datos

A
B
C

2. Ancla ndo las variab


bles guardada
as en el data.fframe. Funcin
n
attach( )

18

20

22

R
Realice un gr
fico de dispers
sin para analiizar la relacin
n
e
entre las venta
as y los gastos de publicid
dad segn las
s
s
secciones y glob
balmente.
P
Postule y ajuste un MRLM pa
ara estudiar los efectos que las
s
s
secciones del allmacn puedan
n tener sobre la
a relacin de las
s
v
ventas versus los gastos de publicidad. Considere
C
como
o
n
nivel de referencia de la variab
ble SEC a la C.
P
Postule y ajustte un MRLM en donde se considere que en
n
p
promedio el efe
ecto de los gastos en public
cidad sobre las
s
v
ventas es el miismo para las tres
t
secciones, pero la media
a
d
de las ventas es diferente.. Considere como
c
nivel de
e
rreferencia de la variable SEC a la C. Analice residuos.
r
C
Con base en el
e modelo anterrior, Analice ajjuste y prediga
a
lo
os gastos de publicidad en
n los puntos de prediccin
n
in
ndicados en la Tabla siguiente
e.
Obs. X1 SEC
1
6
A
2
11
C

attach(da
atos)

16

3. Repressentacin grffica de los dattos por grfico


o de dispersin
n.
Funcionees plot( ), as.nu
umeric( ) y lege
end( )

4.

Otra
fo
orma:
Leer
archivo extterno creado
previamente
e,
DATOSP
PROBLEMAGAS
STOSPUBLICID
DAD.csv. funciin read.table(()

14

3.

datos=dat
ta.frame(scan( what=list(SEC=
="",X1=0,Y=0)))
)
A 5.2 9
A 5.9 10
A 7.7 12
A 7.9 12
A 9.4 14
B 8.2 13
B 9.0 13
B 9.1 12
B 10.5 13
3
B 10.5 14
4
C 10.0 18
8
C 10.3 19
9
C 12.1 20
0
C 12.7 21
1
C 13.6 22
2
datos

plot(X1,Y
Y,pch=as.numer ic(SEC),col=as
s.numeric(SEC),
,xlab="X1",
yla
ab="Y",cex=2,c ex.lab=1.5)

12

2.

Y
9
10
12
12
14
13
13
12
13
14
18
19
20
21
22

topleft",legen d=c("A","B","C
C"),pch=c(1:3),
,col=c(1:3),
legend("t
c
cex=1.5)

10

1.

X1
1
5.2
2
5.9
9
7.7
7
7.9
9
9.4
4
8.2
2
9.0
0
9.1
1
10.5
5
10.5
5
10.0
0
10.3
3
12.1
1
12.7
7
13.6
6

Progrrama R necesa
ario y resultad
dos.
1. Lecturra de los datoss y definicin de variables
Una form
ma: Ingresar datos por te
eclado, con fu
uncin scan( )
combinad
da con funci
n data.fram
me( ), como se muestra a
continuaccin; as se creea un marco d
de datos (objeto
o tabular cuyas
columnass son variables)

10

12

X1

Figu
ura 1. Grfico de dis
spersin Y vs. X1

4. Escogiiendo nivel de
e referencia pa
ara SEC. Se tom
ma la seccin C.
C
Funcin rrelevel( )
SEC=relev
vel(SEC,ref="C ")
SEC

Signif. Codes:0 *** 0.001 ** 0.01 * 0.05 . 0.1 1


Residual standard error: 0.6044 on 11 degrees of freedom
Multiple R-squared: 0.983,
Adjusted R-squared: 0.9784
F-statistic:
212 on 3 and 11 DF, p-value: 5.186e-10

en modelo

X1n=c(6,11)
SECn=c("A","C")
predict(modelo2,newdata=data.frame(X1=X1n,SEC=SECn),
interval="prediction",level=0.95)

9. Anlisis grfico ajuste en modelo 2. Funciones win.graph( ),


plot( ), as.numeric( ), legend( ), lines( ), fitted( )
win.graph()
plot(X1,Y,pch=as.numeric(SEC),col=as.numeric(SEC),xlab="X1",
ylab="Y",cex=1.5,cex.lab=1.5)

-1.0

residuals(modelo2)

shapiro.test(residuals(modelo2))

8. Prediccin para
,
A y
2. Funcin c( ), predict( ) y data.frame( )

C
A
B

1.0

7.2. Test de normalidad en modelo 2. Funciones shapiro.test( ) y


residuals( )

1.0

qqnorm(residuals(modelo2),pch=as.numeric(SEC),
col=as.numeric(SEC),cex=1.5)
qqline(residuals(modelo2),col=2)
legend("topleft",legend=c("C","A","B"),pch=c(1:3),col=c(1:3),
cex=1.5)

Max
1.21398

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
8.6888
1.4455
6.011 8.79e-05 ***
X1
0.9635
0.1210
7.966 6.80e-06 ***
SECA
-4.2451
0.6671 -6.363 5.34e-05 ***
SECB
-4.8033
0.4714 -10.190 6.12e-07 ***

0.5

plot(X1,residuals(modelo2),pch=as.numeric(SEC),
col=as.numeric(SEC),cex=1.5)
abline(h=0)
legend("topleft",legend=c("C","A","B"),pch=c(1:3),col=c(1:3),
cex=1.5)

3Q
0.29767

C
A
B

0.0

plot(fitted(modelo2),residuals(modelo2),pch=as.numeric(SEC),
col=as.numeric(SEC),cex=1.5)
abline(h=0)
legend("topleft",legend=c("C","A","B"),pch=c(1:3),col=c(1:3),
cex=1.5)

Salidas R modelo 2
Call:
lm(formula = Y ~ X1 + SEC)
Residuals:
Min
1Q
Median
-1.00202 -0.33520 -0.00202

residuals(modelo2)

win.graph()
layout(rbind(c(1,1,2,2),c(0,3,3,0)))

Signif. Codes:0 *** 0.001 ** 0.01 * 0.05 . 0.1 1


Residual standard error: 0.4709 on 9 degrees of freedom
Multiple R-squared: 0.9916,
Adjusted R-squared: 0.9869
F-statistic: 211.4 on 5 and 9 DF, p-value: 4.782e-09

-0.5

7. Anlisis de residuales modelo 2:


7.1. Grficos de residuos
vs.
,
vs.
y Grfico de
probabilidad normal sobre residuos. Funciones win.graph( ),
layout( ), rbind(), plot( ), fitted( ), residuals( ), as.numeric( ),
abline( ), qqnorm( ), qqline( ) y legend( )

-1.0

modelo2=lm(Y~X1+SEC)
summary(modelo2)

Max
0.64418

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
8.2747
1.7957
4.608 0.001276 **
X1
0.9988
0.1519
6.575 0.000102 ***
SECA
-5.2429
2.0724 -2.530 0.032243 *
SECB
1.4888
2.8494
0.522 0.613946
X1:SECA
0.1603
0.2068
0.775 0.458127
X1:SECB
-0.6566
0.2780 -2.362 0.042452 *

0.5

6. Modelo 2. Ajuste del modelo de pendientes iguales pero nivel


medio diferente. El efecto promedio de X1 sobre Y es el mismo en
las tres secciones pero el nivel de ventas es diferente (Nivel de
referencia la Seccin C),
,
0,
Funciones lm( ) y summary( )

3Q
0.14985

0.0

modelo1=lm(Y~X1*SEC)
summary(modelo1)

Salidas R modelo 1
Call:
lm(formula = Y ~ X1 * SEC)
Residuals:
Min
1Q
Median
-0.87683 -0.22516 0.04366

-0.5

5. Modelo 1. Ajuste del modelo ms general. Relacin lineal de Y


vs. X1 es diferente segn la Seccin (Nivel de referencia la Seccin
C),

,
0,
,
,
Funciones lm( ) y summary( )

10

12

14

16

18

20

22

fitted(modelo2)

10
X1

0.5
-0.5

0.0

C
A
B

C
A
B

-1.0

20

22

detach(datos)

Sample Quantiles

10. Desanclando las variables en el data.frame. Funcin detach()

1.0

Normal Q-Q Plot

legend("topleft",legend=c("C","A","B"),pch=1:3,col=1:3,cex=1.5)
lines(X1[SEC=="C"],fitted(modelo2)[SEC=="C"],col=1,lty=1,lwd=2)
lines(X1[SEC=="A"],fitted(modelo2)[SEC=="A"],col=2,lty=2,lwd=2)
lines(X1[SEC=="B"],fitted(modelo2)[SEC=="B"],col=3,lty=3,lwd=2)

18

-1

16

Figura 3. Grficos de residuales y de normalidad en modelo 2

12

14

Salida R test Shapiro Wilk modelo 2


Shapiro-Wilk normality test
data: residuals(modelo2)
W = 0.9805, p-value = 0.9727

10

Theoretical Quantiles

10

12

X1

Figura 2. Grfica del ajuste con modelo 2

Salida R pronsticos modelo 2


fit
lwr
upr
1 10.22456 8.731486 11.71762
2 19.28703 17.816454 20.75760

12

A continuacin se muestran los resultados numricos R de los modelos


1 y 2 debidamente editados. Compare con las salidas originales de R
previamente presentadas.
Tabla de estimacin modelo 1, resultados editados
Error
| | | |
Parmetro
Estimacin
T0
Estndar
8.275
1.796
4.608
0.001
0.999
0.152
6.575
0.000
-5.243
2.072
-2.530
0.032
1.489
2.849
0.522
0.614
0.160
0.207
0.775
0.458
,
-0.657
0.278
-2.362
0.042
,
0.4709,
0.9869,
211.4,
4.782 10

Luego, la ecuacin general ajustada en el modelo 1 corresponde a


5.243
1.489
0.160
0.657
8.275 0.999
Por seccin, se tendra que
1,
0):
En Seccin A (
8.275 5.243
0.999

0.160

3.032

1.159

0,
1):
En Seccin B (
8.275 1.489
0.999

0.657

9.764

0.342

En Seccin C (

0,

Para la observacin 1 donde X1=6, SEC=A


4.444 0.963 6

Recuerde que bajo los supuestos sobre los errores del MRLM, el I.P de
(bajo las
nivel (1
)100% para un valor futuro de la respuesta
condiciones del vector , que indica el valor futuro considerado para
cada una de las variables explicatorias en el MRLM), se calcula de
manera general como
.
/ ,
en

es el valor pronosticado segn la ecuacin ajustada evaluada

, .

1
2

Tabla de estimacin modelo 2, resultados editados


Error
| | | |
Estimacin
T0
Estndar
8.689
1.445
6.011
0.000
0.963
0.121
7.966
0.000
-4.245
0.667
-6.363
0.000
-4.803
0.471
-10.190
0.000
0.6044,
0.9784,
212,
5.186 10
,

Parmetro

es el error estndar del error de pronstico

es el nmero de predictores en la ecuacin de regresin (en el


modelo 2,
3).

Obs.

0.999

10.222

Para la observacin 2 donde X1=11, SEC=C


8.689 0.963 11 19.282

Donde

0):
8.275

Para los pronsticos con el modelo 2, se identifica la seccin para cada


punto de pronstico y se usa la ecuacin ajustada correspondiente,
evaluada en el valor dado a X1.

Pronsticos con modelo 2 y sus I.P del 95%


Lmite
Vector
Pronstico
Inferior
6,
1,
0
10.225
8.731
11,
0,
0
19.287
17.816

Lmite
superior
11.718
20.758

Los resultados editados del test de normalidad con los residuales del
modelo 2 se muestran a continuacin
Test de normalidad con residuales del modelo 2
Mtodo
W
VP
Shapiro-Wilk normality test
0.9805
0.9727

La ecuacin general ajustada en el modelo 2 corresponde a


8.689 0.963
4.245
4.803

Donde la hiptesis a probar es


H0: Los errores del modelo normales
H1: Los errores del modelo no tienen distribucin normal

Por seccin se tendra,


1,
En Seccin A (
8.689

0):
4.245

0.963

4.444

0.963

Recuerde que la evaluacin del test de normalidad exige previamente


la validacin del supuesto de incorrelacin. Si este supuesto no se
cumple, no es apropiado aplicar el test de normalidad.

0,
8.689

1):
4.803

0.963

3.886

0.963

En Seccin B (

En Seccin C (

0,

0):
8.689

0.963

Seccin 3: Observaciones
Medidas de bondad de ajuste en un MRLM

Varianza no constante. Puede manifestarse a travs de alguno de los

Recuerde que

patrones que se ilustran a continuacin.

representa la variabilidad explicada por el modelo

y sus grados de libertad corresponden al nmero de predictores en el

1 .

respuesta y sus grados de libertad iguales a

^
E

representa la variabilidad total observada en la

^
E

modelo.

representa la variabilidad no explicada por el

modelo y sus grados de libertad iguales a


1

^
Y

es la proporcin de la variabilidad total observada

en la respuesta, que es explicada por el modelo.


y

. Luego,

no es la proporcin de variabilidad total

^
E

R2adj R2 es decir,

, donde

^
E

explicada, simplemente una medida de calidad del ajuste que mientras


ms prxima de 1 es mejor, y en algunos casos puede llegar a ser
negativa indicando un ajuste muy malo.

^
Y

2. Sobre la evaluacin de los supuestos en un MRLM

Figura 5. Ejemplo patrones de varianza no constante aunque no hay carencia de ajuste

En cualquier modelo de RLM es necesario validar que

Carencia de ajuste aunque varianza es constante. Este es un patrn

a) Hay incorrelacin en los errores del modelo. Este supuesto ud. lo

anmalo identificado grficamente como un patrn en U o U invertida,

asumi vlido en el curso de estadstica II, considerando que el diseo

con brazos de amplitud aproximadamente iguales, como se ilustra a

muestral que fue seguido y la forma en que se obtuvieron los datos

continuacin, lo que indica la falta de un trmino no lineal en la

garantiza la independencia entre las observaciones. Pero tenga en

relacin postulada de Y vs. algn predictor cuantitativo en el modelo

cuenta que si no hay incorrelacin entre los errores del modelo, no


puede evaluarse el supuesto de normalidad, desde que cualquier
prueba de bondad de ajuste a alguna distribucin estadstica exige que

^
E
0

por definicin se compone de observaciones iid (independientes y

^
E

los datos sobre la cual se realiza constituyan una muestra aleatoria, que

provenientes de una misma distribucin).


b) La varianza es constante y no hay carencia de ajuste. Al evaluar

valores ajustados y residuos vs. cada predictor cuantitiativo, se espera

^
Y

grficamente este supuesto mediante los grficos de residuos vs.

Figura 6. Ejemplo de patrn de carencia de ajuste aunque varianza es constante

Varianza no constante y carencia de ajuste lineal. Identificado por la

un patrn como se ilustra a continuacin

presencia de patrones en U donde la U no tiene brazos de la misma

^
E

^
E

^
E

^
E

amplitud, como se ve en la Figura 7.

^
Y

Figura 4 Patrones deseados en residuales

Patrones anmalos, es decir, que evidencian invalidez de supuestos


sobre homogeneidad de varianza y/o carencia de ajuste muestran
alejamiento del patrn ilustrado en la Figura 4.

^
Y

Figura 7. Ejemplo patrn de varianza no constante y carencia de ajuste combinados

c) Normalidad para los errores del modelo. Puede chequearse desde


que sea vlido que existe incorrelacin en los valores de esta variable.
La normalidad se chequea a travs del grfico de probabilidad normal,

en el que se espera que la nube de puntos caiga sobre la recta de

20

0.5
0.0

residuals(modelo2)

1.0

C
A
B

-1.0

-0.5

1.0
10

12

14

16

18

20

22

10

12

X1

fitted(modelo2)

Normal Q-Q Plot

Theoretical Quantiles

Figura 8. Patrn esperado en grfico de probabilidad normal

-0.5

Patrones de no normalidad. En la Figura 9 se ilustran los patrones

0.5

-1

C
A
B

0.0

-2

Sample Quantiles

-40

1.0

-20

Sample Quantiles

0.5
-1.0

40

Normal Q-Q Plot

0.0

estimados bajo supuesto de normalidad, como se ilustra a continuacin

residuals(modelo2)

cuantiles muestrales de los residuales vs. los cuantiles tericos

C
A
B

-0.5

probabilidad normal, mostrando una asociacin lineal entre los

-1.0

mostrados cuando no es cierto que la distribucin de los datos


proviene de una normal.

-1

Theoretical Quantiles
Normal Q-Q Plot

Normal Q-Q Plot

0.55

15

Figura 10. Residuales y grfico de probabilidad normal obtenidos para el modelo 2

0.45
0.40

10

Sample Quantiles

De acuerdo a las grficas de residuales, se concluye que


a) Dado que es mayor la dispersin respecto a la lnea horizontal que

0.35

Sample Quantiles

0.50

Test de normalidad con residuales del modelo 2


Mtodo
W
VP
Shapiro-Wilk normality test
0.9805
0.9727

0.30

pasa por cero para los residuos correspondientes a la seccin B

-2

-1

-2

-1

Theoretical Quantiles

Theoretical Quantiles

+) que la que muestran los residuos para las otras dos

secciones, se concluye que no hay validez del supuesto de varianza

Normal Q-Q Plot

b) Observando los residuales para la seccin A (smbolo ) , parece que

existe un patrn lineal en estos puntos con pendiente positiva, eso da

indicio de que posiblemente el modelo est mal especificado. Recuerde

-2

constante segn la seccin;

que el modelo 2 asume que las pendientes de las rectas de Y vs. X1 en


cada seccin son iguales pero ste puede ser un supuesto errneo.

-4

Sample Quantiles

(smbolo

-2

-1

Mire de nuevo el grfico de dispersin de los datos presentados en la

Theoretical Quantiles

Figura 9. Patrones de no normalidad. Arriba izq. Distribucin de cola derecha; arriba der.

solucin del taller, en la Figura 1.

Distribucin de cola izquierda; Abajo, distribucin simtrica de colas pesadas

De acuerdo al grfico y al test de normalidad (ver valor P) no hay

La normalidad tambin puede evaluarse mediante el test de Shapiro-

evidencia en contra del supuesto de que los errores del modelo

Wilk y respecto a los errores del modelo, se aplicara usando los

provengan de una distribucin normal.

residuales del modelo.

NOTA: Segn el diseo muestral y la forma en que se obtuvieron los

NOTA: Puede haber desacuerdo entre el test y el grfico de

datos para el problema descrito en este taller de repaso, podemos

normalidad. En tal caso tener en cuenta que el grfico de probabilidad

asumir la independencia y por tanto la incorrelacin entre los errores,

debe ser la herramienta principal para la decisin final.

es decir,

3. Validacin de supuestos para el modelo 2: Recuerde que el modelo

caso s podemos proceder con la evaluacin del supuesto de

2 postulado fue

normalidad con la grfica y el test Shapiro-Wilk.


,

0,

0,

, ,

1, 2, , , por lo que en este

4. Interpretaciones de parmetros estimados en el modelo 2. La

X1=Gasto semanal en publicidad, I1=indicadora de la Seccin A y

interpretacin que se ver a continuacin slo es vlida en el modelo 2,

I2=indicadora de la Seccin B y Y=ventas semanales

es decir, no puede aplicarse en el caso del modelo 1 postulado en el

Las grficas de residuales obtenidas fueron las siguientes

taller, donde se asume que la relacin lineal entre Y y X1 cambia segn


la seccin (o sea, en el modelo donde las rectas son diferentes tanto en
pendiente como en intercepto). Segn la tabla de parmetros ajustados,

Tabla de estimacin modelo 2, resultados editados


Error
| | | |
Parmetro
Estimacin
T0
Estndar
8.689
1.445
6.011
8.79 10
0.963
0.121
7.966
6.80 10
-4.245
0.667
-6.363
5.34 10
-4.803
0.471
-10.190
6.12 10
0.6044,
0.9784,
212,
5.186 10

Pronsticos con modelo 2 y sus I.P del 95% (miles de dlares)


Lmite
Lmite
Vector
Obs.
Pronstico
Inferior
superior
6,
1,
0
1
11.718
10.225
8.731
11,
0,
0
2
20.758
19.287
17.816

Entonces, se tiene que en la seccin de caballeros (A) se pronostica que


si se gastan 6 mil dlares en publicidad en una semana, las ventas en

se tiene que (recuerde que cada unidad representa mil dlares):

tal semana sern de 10225 dlares y que el verdadero valor de las

indica evidencia

ventas podr estar entre 8731 y 11718 dlares con un 95% de confianza,

de la significancia de este parmetro y por tanto podemos hacer la

mientras que en la seccin de damas (C) se pronostica que si se gastan

0, pues valor P=

a)

| |

6.80 10

0.9635: Se estima que en promedio por

siguiente conclusin con

11

mil

dlares

en

publicidad

en

una

semana,

las

ventas

cada mil dlares que se incremente el gasto en publicidad (X1) en una

correspondientes sern de 19287 dlares y que el verdadero valor de

semana (en cualquiera de las tres secciones) habr un incremento en

las ventas podr estar entre 17816 y 20758 dlares con un 95% de

963.5 dlares en las ventas.

confianza.

0, pues valor P=

b)

| |

5.34 10

indica evidencia

de la significancia de este parmetro y podemos hacer la siguiente

NOTA: Es muy importante valorar la precisin de los pronsticos a

4.2451: Se estima que para un mismo nivel de

travs de los I.P, esto se hace evaluando tanto la amplitud del intervalo

gasto en publicidad semanal (X1), el promedio de ventas en la Seccin

(diferencia entre los lmites superior e inferior) como la cobertura

A es menor (debido al signo menos) al promedio de ventas en la

(proporcin de los I.P calculados que contienen el verdadero valor que

Seccin de referencia (Seccin C) en 4245.1 dlares.

se observe para la variable respuesta), de forma que a menor longitud

conclusin con

0, pues valor P=

c)

| |

6.12 10

indica evidencia

de la significancia de este parmetro y podemos hacer la siguiente


4.8033: Se estima que para un mismo nivel de

conclusin con

gasto en publicidad semanal (X1), el promedio de ventas en la Seccin


B es menor (debido al signo menos) al promedio de ventas en la
Seccin de referencia (Seccin C) en 4803.3 dlares.
NOTA: En el modelo 2, se tiene que para las secciones A, B, y C, el
valor esperado de Y es, respectivamente,
| 1,
| 1,
| 1,
Luego, si fijamos a X1 en un mismo valor

en las tres secciones y

calculamos las diferencias de las medias de las secciones A y B respecto


a la C, tenemos que,
| 1

| 1

| 1

| 1

De aqu que las estimaciones para

,
,
y

sean interpretadas en

trminos de la estimacin de la diferencia entre el promedio de las


ventas en la seccin correspondiente vs. el promedio en la seccin de
referencia, que para el ejemplo es la C, para un mismo valor del gasto
semanal en publicidad (X1).
5. Interpretacin de pronsticos puntuales y de intervalos de
pronstico (I.P). Un pronstico puntual habla sobre el valor que se
estima tomar exactamente la variable respuesta, segn el modelo,
cuando se considera un valor particular para los predictores (una obs.
nueva) mientras que su I.P es el intervalo en el cual, con un nivel de
confianza dado, estar el verdadero valor de la variable respuesta. Por
ej. Considerando los resultados de las dos predicciones pedidas con el
modelo 2,

y mayor cobertura promedios, mejor es la calidad de los pronsticos


por intervalos de pronsticos.

Seccin 4. Programacin R completa usada sobre datos del taller


Este cdigo puede editarse en un archivo R de edicin (un script, creado por men Archivo) y guardarse con extensin .R
#Lectura de los datos por teclado
datos=data.frame(scan(what=list(SEC="",X1=0,Y=0)))
A 5.2 9
A 5.9 10
A 7.7 12
A 7.9 12
A 9.4 14
B 8.2 13
B 9.0 13
B 9.1 12
B 10.5 13
B 10.5 14
C 10.0 18
C 10.3 19
C 12.1 20
C 12.7 21
C 13.6 22
datos
#o bien, Lectura de los datos desde archivo DATOSPROBLEMAGASTOSPUBLICIDAD.csv
datos=read.table(file.choose(),header=T,skip=6,sep=";",dec=".")
datos
#Anclando variables del data.frame
attach(datos)
#Grfico de dispersin con representacin de las secciones
plot(X1,Y,pch=as.numeric(SEC),col=as.numeric(SEC),xlab="X1",ylab="Y",cex=2,cex.lab=1.5)
legend("topleft",legend=c("A","B","C"),pch=c(1:3),col=c(1:3),cex=1.5)
SEC=relevel(SEC,ref="C") #Definiendo como nivel de referencia a la seccin C
#El orden de los niveles para SEC queda como C, A, y B
SEC
#Ajuste modelo 1
modelo1=lm(Y~X1*SEC)
summary(modelo1)
#Ajuste modelo 2
modelo2=lm(Y~X1+SEC)
summary(modelo2)
#Anlisis de residuales en modelo 2
win.graph()
layout(rbind(c(1,1,2,2),c(0,3,3,0)))
#Residuales vs. valores ajustados, con representacin de las secciones
plot(fitted(modelo2),residuals(modelo2),pch=as.numeric(SEC),col=as.numeric(SEC),cex=1.5)
abline(h=0)
legend("topleft",legend=c("C","A","B"),pch=c(1:3),col=c(1:3),cex=1.5)
#Residuales vs. predictor cuantitativo X1, con representacin de las secciones
plot(X1,residuals(modelo2),pch=as.numeric(SEC),col=as.numeric(SEC),cex=1.5)
abline(h=0)
legend("topleft",legend=c("C","A","B"),pch=c(1:3),col=c(1:3),cex=1.5)
#Grfico de probabilidad normal sobre residuos modelo 2, con representacin de las secciones
qqnorm(residuals(modelo2),pch=as.numeric(SEC),col=as.numeric(SEC),cex=1.5)
qqline(residuals(modelo2),col=2)
legend("topleft",legend=c("C","A","B"),pch=c(1:3),col=c(1:3),cex=1.5)
#Test de normalidad sobre residuos
shapiro.test(residuals(modelo2))
#predicciones en modelo 2 en las dos nuevas observaciones
X1n=c(6,11)
SECn=c("A","C")
predict(modelo2,newdata=data.frame(X1=X1n,SEC=SECn),interval="prediction",level=0.95)
#Grfico del ajuste en modelo 2, con representacin de las secciones
win.graph()
plot(X1,Y,pch=as.numeric(SEC),col=as.numeric(SEC),xlab="X1",ylab="Y",cex=1.5,cex.lab=1.5)
legend("topleft",legend=c("C","A","B"),pch=1:3,col=1:3,cex=1.5)
lines(X1[SEC=="C"],fitted(modelo2)[SEC=="C"],col=1,lty=1,lwd=2)
lines(X1[SEC=="A"],fitted(modelo2)[SEC=="A"],col=2,lty=2,lwd=2)
lines(X1[SEC=="B"],fitted(modelo2)[SEC=="B"],col=3,lty=3,lwd=2)
detach(datos) #desanclando las variables en data.frame

Вам также может понравиться