Академический Документы
Профессиональный Документы
Культура Документы
Seccin 1: Preliminares.
Recuerde que un modelo de regresin es un medio formal para
expresar dos aspectos importantes de una relacin estadstica:
1. Una tendencia de la variable dependiente
que
cambia cuando una o ms variables independientes
cambian en una forma sistemtica.
2. Una dispersin de los puntos alrededor de la relacin
estadstica.
,
donde
es la variable respuesta y , ,
son variables
predictoras o explicatorias y es el trmino de error del modelo
:
que se asume iid 0,
Estas caractersticas se expresan en un modelo de regresin
como:
1. Para cada nivel de una variable explicatoria hay una
distribucin de probabilidad de .
2. Las medias de estas distribuciones de probabilidad
cambian en una forma sistemtica con la variable .
As, el anlisis de regresin es un proceso a travs del cual es
derivada una relacin descriptiva o predictiva entre una variable
respuesta y un conjunto de variables predictoras o
explicatorias, usando datos referentes a estas variables.
El trabajo de anlisis contempla una serie de tareas que pueden
resumirse en las siguientes
1.
2.
3.
4.
5.
6.
7.
Modelo a ajustar
log
0, (MRLM no es significativo) vs
:
0
1, 2, , (MRLM es significativo)
Cuyo estadstico de prueba bajo H0 y los supuestos sobre el
error
es,
/
/
con
,
1, 2, , ,
la media de los
valores
la estimacin del parmetro
. Para la
observados de
y
.
decisin usamos el valor P calculado como
,
Para los tests de significancia individual de cada uno de los
parmetros, se prueba respectivamente,
:
0 ( no es significativo) vs :
0 ( es significativo)
Cuyo estadstico de prueba bajo H0 y los supuestos sobre el
error es,
, donde
es el error estndar
Secciin 2: Problem
ma de repaso.
Un grran almacn realiz
r
un exp
perimento para
a investigar los
s
efecto
os de los gastos
s por publicida
ad sobre las ven
ntas semanales
s
de su
us secciones de
e ropa para caballeros (A), pa
ara nios (B) y
para damas (C). Se
S seleccionaro
on al azar 5 semanas para
a
a seccin, y se asign un pre
esupuesto para
a
obserrvacin en cada
public
cidad (X1, en cientos de dlares)
d
a cad
da una de las
s
seccio
ones. Las ven
ntas semanales
s (en miles de
e dlares), los
s
gastos
s de publicidad
d en cada uno de las tres sec
cciones en cada
a
una d
de las cinco se
emanas del estu
udio se listan en la siguiente
e
tabla..
SEC
A
A
A
A
A
B
B
B
B
B
C
C
C
C
C
datos=rea
ad.table(file. choose(),heade
er=T,skip=6,sep
p=";",dec=".")
datos
A
B
C
18
20
22
R
Realice un gr
fico de dispers
sin para analiizar la relacin
n
e
entre las venta
as y los gastos de publicid
dad segn las
s
s
secciones y glob
balmente.
P
Postule y ajuste un MRLM pa
ara estudiar los efectos que las
s
s
secciones del allmacn puedan
n tener sobre la
a relacin de las
s
v
ventas versus los gastos de publicidad. Considere
C
como
o
n
nivel de referencia de la variab
ble SEC a la C.
P
Postule y ajustte un MRLM en donde se considere que en
n
p
promedio el efe
ecto de los gastos en public
cidad sobre las
s
v
ventas es el miismo para las tres
t
secciones, pero la media
a
d
de las ventas es diferente.. Considere como
c
nivel de
e
rreferencia de la variable SEC a la C. Analice residuos.
r
C
Con base en el
e modelo anterrior, Analice ajjuste y prediga
a
lo
os gastos de publicidad en
n los puntos de prediccin
n
in
ndicados en la Tabla siguiente
e.
Obs. X1 SEC
1
6
A
2
11
C
attach(da
atos)
16
4.
Otra
fo
orma:
Leer
archivo extterno creado
previamente
e,
DATOSP
PROBLEMAGAS
STOSPUBLICID
DAD.csv. funciin read.table(()
14
3.
datos=dat
ta.frame(scan( what=list(SEC=
="",X1=0,Y=0)))
)
A 5.2 9
A 5.9 10
A 7.7 12
A 7.9 12
A 9.4 14
B 8.2 13
B 9.0 13
B 9.1 12
B 10.5 13
3
B 10.5 14
4
C 10.0 18
8
C 10.3 19
9
C 12.1 20
0
C 12.7 21
1
C 13.6 22
2
datos
plot(X1,Y
Y,pch=as.numer ic(SEC),col=as
s.numeric(SEC),
,xlab="X1",
yla
ab="Y",cex=2,c ex.lab=1.5)
12
2.
Y
9
10
12
12
14
13
13
12
13
14
18
19
20
21
22
topleft",legen d=c("A","B","C
C"),pch=c(1:3),
,col=c(1:3),
legend("t
c
cex=1.5)
10
1.
X1
1
5.2
2
5.9
9
7.7
7
7.9
9
9.4
4
8.2
2
9.0
0
9.1
1
10.5
5
10.5
5
10.0
0
10.3
3
12.1
1
12.7
7
13.6
6
Progrrama R necesa
ario y resultad
dos.
1. Lecturra de los datoss y definicin de variables
Una form
ma: Ingresar datos por te
eclado, con fu
uncin scan( )
combinad
da con funci
n data.fram
me( ), como se muestra a
continuaccin; as se creea un marco d
de datos (objeto
o tabular cuyas
columnass son variables)
10
12
X1
Figu
ura 1. Grfico de dis
spersin Y vs. X1
4. Escogiiendo nivel de
e referencia pa
ara SEC. Se tom
ma la seccin C.
C
Funcin rrelevel( )
SEC=relev
vel(SEC,ref="C ")
SEC
en modelo
X1n=c(6,11)
SECn=c("A","C")
predict(modelo2,newdata=data.frame(X1=X1n,SEC=SECn),
interval="prediction",level=0.95)
-1.0
residuals(modelo2)
shapiro.test(residuals(modelo2))
8. Prediccin para
,
A y
2. Funcin c( ), predict( ) y data.frame( )
C
A
B
1.0
1.0
qqnorm(residuals(modelo2),pch=as.numeric(SEC),
col=as.numeric(SEC),cex=1.5)
qqline(residuals(modelo2),col=2)
legend("topleft",legend=c("C","A","B"),pch=c(1:3),col=c(1:3),
cex=1.5)
Max
1.21398
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
8.6888
1.4455
6.011 8.79e-05 ***
X1
0.9635
0.1210
7.966 6.80e-06 ***
SECA
-4.2451
0.6671 -6.363 5.34e-05 ***
SECB
-4.8033
0.4714 -10.190 6.12e-07 ***
0.5
plot(X1,residuals(modelo2),pch=as.numeric(SEC),
col=as.numeric(SEC),cex=1.5)
abline(h=0)
legend("topleft",legend=c("C","A","B"),pch=c(1:3),col=c(1:3),
cex=1.5)
3Q
0.29767
C
A
B
0.0
plot(fitted(modelo2),residuals(modelo2),pch=as.numeric(SEC),
col=as.numeric(SEC),cex=1.5)
abline(h=0)
legend("topleft",legend=c("C","A","B"),pch=c(1:3),col=c(1:3),
cex=1.5)
Salidas R modelo 2
Call:
lm(formula = Y ~ X1 + SEC)
Residuals:
Min
1Q
Median
-1.00202 -0.33520 -0.00202
residuals(modelo2)
win.graph()
layout(rbind(c(1,1,2,2),c(0,3,3,0)))
-0.5
-1.0
modelo2=lm(Y~X1+SEC)
summary(modelo2)
Max
0.64418
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
8.2747
1.7957
4.608 0.001276 **
X1
0.9988
0.1519
6.575 0.000102 ***
SECA
-5.2429
2.0724 -2.530 0.032243 *
SECB
1.4888
2.8494
0.522 0.613946
X1:SECA
0.1603
0.2068
0.775 0.458127
X1:SECB
-0.6566
0.2780 -2.362 0.042452 *
0.5
3Q
0.14985
0.0
modelo1=lm(Y~X1*SEC)
summary(modelo1)
Salidas R modelo 1
Call:
lm(formula = Y ~ X1 * SEC)
Residuals:
Min
1Q
Median
-0.87683 -0.22516 0.04366
-0.5
,
0,
,
,
Funciones lm( ) y summary( )
10
12
14
16
18
20
22
fitted(modelo2)
10
X1
0.5
-0.5
0.0
C
A
B
C
A
B
-1.0
20
22
detach(datos)
Sample Quantiles
1.0
legend("topleft",legend=c("C","A","B"),pch=1:3,col=1:3,cex=1.5)
lines(X1[SEC=="C"],fitted(modelo2)[SEC=="C"],col=1,lty=1,lwd=2)
lines(X1[SEC=="A"],fitted(modelo2)[SEC=="A"],col=2,lty=2,lwd=2)
lines(X1[SEC=="B"],fitted(modelo2)[SEC=="B"],col=3,lty=3,lwd=2)
18
-1
16
12
14
10
Theoretical Quantiles
10
12
X1
12
0.160
3.032
1.159
0,
1):
En Seccin B (
8.275 1.489
0.999
0.657
9.764
0.342
En Seccin C (
0,
Recuerde que bajo los supuestos sobre los errores del MRLM, el I.P de
(bajo las
nivel (1
)100% para un valor futuro de la respuesta
condiciones del vector , que indica el valor futuro considerado para
cada una de las variables explicatorias en el MRLM), se calcula de
manera general como
.
/ ,
en
, .
1
2
Parmetro
Obs.
0.999
10.222
Donde
0):
8.275
Lmite
superior
11.718
20.758
Los resultados editados del test de normalidad con los residuales del
modelo 2 se muestran a continuacin
Test de normalidad con residuales del modelo 2
Mtodo
W
VP
Shapiro-Wilk normality test
0.9805
0.9727
0):
4.245
0.963
4.444
0.963
0,
8.689
1):
4.803
0.963
3.886
0.963
En Seccin B (
En Seccin C (
0,
0):
8.689
0.963
Seccin 3: Observaciones
Medidas de bondad de ajuste en un MRLM
Recuerde que
1 .
^
E
^
E
modelo.
^
Y
. Luego,
^
E
R2adj R2 es decir,
, donde
^
E
^
Y
^
E
0
^
E
los datos sobre la cual se realiza constituyan una muestra aleatoria, que
^
Y
^
E
^
E
^
E
^
E
^
Y
^
Y
20
0.5
0.0
residuals(modelo2)
1.0
C
A
B
-1.0
-0.5
1.0
10
12
14
16
18
20
22
10
12
X1
fitted(modelo2)
Theoretical Quantiles
-0.5
0.5
-1
C
A
B
0.0
-2
Sample Quantiles
-40
1.0
-20
Sample Quantiles
0.5
-1.0
40
0.0
residuals(modelo2)
C
A
B
-0.5
-1.0
-1
Theoretical Quantiles
Normal Q-Q Plot
0.55
15
0.45
0.40
10
Sample Quantiles
0.35
Sample Quantiles
0.50
0.30
-2
-1
-2
-1
Theoretical Quantiles
Theoretical Quantiles
-2
-4
Sample Quantiles
(smbolo
-2
-1
Theoretical Quantiles
Figura 9. Patrones de no normalidad. Arriba izq. Distribucin de cola derecha; arriba der.
es decir,
2 postulado fue
0,
0,
, ,
indica evidencia
ventas podr estar entre 8731 y 11718 dlares con un 95% de confianza,
0, pues valor P=
a)
| |
6.80 10
11
mil
dlares
en
publicidad
en
una
semana,
las
ventas
las ventas podr estar entre 17816 y 20758 dlares con un 95% de
confianza.
0, pues valor P=
b)
| |
5.34 10
indica evidencia
travs de los I.P, esto se hace evaluando tanto la amplitud del intervalo
conclusin con
0, pues valor P=
c)
| |
6.12 10
indica evidencia
conclusin con
| 1
| 1
| 1
,
,
y
sean interpretadas en