Академический Документы
Профессиональный Документы
Культура Документы
# Respuesta = y
# MODELOS----
# 1) Analiticamente----
#pongo el modelo0 cuando no hay variable #factor./regresora. y=mu+e
modelo0=lm(Respuesta~1)
summary(modelo0)
modelo1=lm(Respuesta~Factor)
summary(modelo1)
# 2) Graficamente----
plot(respuesta~factor)
abline(modelo0,col="Red")
abline(modelo1,col="Green")
# 3) Residuos----
par(mfrow=c(2,2))
plot(modelo1)
library(car)
influenceIndexPlot(modelo1)
library(car)
outlierTest(modelo1)
#Graficando
modelo1$residuals
plot(modelo1$residuals,main="Residuos vs indices")
# Diferencia minima
sum(modelo1$residuals^2)
# estimación de sigma
sqrt(sum(modelo1$residuals^2)/(length(Factor)-2))
# BETA1 y BETA0----
beta1=sum((Factor-mean(Factor))*(Respuesta-
mean(Respuesta)))/sum((Favtor-mean(Factor))^2)
beta0=mean(Respuesta)-beta1*mean(Factor)
#INTERVALOS DE CONFIANZA Y
PREDICCION----
# Bandas de confianza y de prediccion
predict(modelo0,interval="confidence")
predict(modelo0,interval="predict")
modelo1 = lm(Respuesta~Factor)
conf = predict(modelo1, interval = "confidence")
pred = predict(modelo1, interval = "predict")
plot(Factor, Respuesta, ylim = c(min(pred),max(pred)))
Factoror = order(Factor)
lines(Factor, modelo1$fitted, col = "green")
# Bandas de confianza
lines(Factor[Factoror], conf[,2][Factoror], col = "green")
lines(Factor[Factoror], conf[,3][Factoror], col = "green" )
# Bandas de prediccion
lines(Factor[Factoror], pred[,2][Factoror], col = "red" )
lines(Factor[Factoror], pred[,3][Factoror], col = "red" )
# f)
# plot de los residuos
par(mfrow = c(2,2))
plot(modelo_log )
# graficamente puede observarse que ahora los residuos no siguen un patron, la
varianza parece ser constante y el supuesto de normalidad tambien parece
verificarse
# test de outliers
outlierTest(modelo_log )
# el test de outliers muestra un p-valor = 0.28004 lo que indica que ahora no
tenemos evidencia suficiente para afirmar que existen outliers
# g)
summary(modelo_log )
# el p-valor correspondiente a la pendiente es 2e-16, entonces sí tenemos
# evidencia suficiente para afirmar que la variable Score afecta a la variable
salario máximo mensual
# i)
nuevoscore = data.frame(Score = )
predict(ajustetrans, nuevoscore, interval = "confidence")
# fit lwr upr
# 7.801612 7.787247 7.815978
# este intervalo esta dado en la escala transformada (escala logaritmica)
# para volver a la escala original deberíamos aplicar la funcion
# exponencial:
# fit lwr upr
# exp(7.801612) exp(7.787247) exp(7.815978)
# 2444.539 2409.675 2479.911
# i)
par(mfrow = c(2,2))
plot(modelo_raiz)
## conlcusion
outlierTest(modelo_raiz)
# conlcucion....
plot(factor,sqrt(respuesta))
abline(modelo_raiz,col='red')
# j)
# con la variable transformada
nuevopH = data.frame(pH= )
predict(modelo_raiz, nuevopH, interval = "confidence")
# fit lwr upr
#
# En la escala original (vuelvo a la variable original)
(predict(modelo_raiz, nuevopH, interval = "confidence"))^2
# fit lwr upr
#
# MODELO--------
# Y = beta0 + beta1*x_i+e_i-- i:nro de datos
# y = variable aleatoria ya que e es aleatoria, es la/el...
(variable que me dicen) , cuando varia la/el (variable
factor), toma diferentes valores.
# x = es la variable regresora no aleatoria, se mide con error
despreciable
# beta0= ordenada, el valor de y cuando x vale 0
# beta1= pendiente, muestra como cambia y con alteracion
de x
# ei= error aleaotorio o alteracion aleatoria, con varianza
#cte
#E(ei) = 0, var(ei) = sigma^2
#Supuestos
# varianzas ctes
# datos independientes
# errores independientes normales con ~N(0,sigma)
#PLANTEAMOS EL TEST
#H0:beta1=0
#HO:beta1=!0
t-value= T=(pendiente-pendente0)/desvio(pendiente)
se planteada la hipotesis de pendiente igual a cero(nula) contra distinto de
cero(alternativa)
p-valor:2*(tcritgradosdelib>tcritico (T))
#conclusion rechazo la nula porque el p-valor es 5.73e-14.
OUTLIERTEST.
SE PROPONE
#HAGO EL TETS
librari(car)....
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.82540 1.07497 5.419 5.68e-05 ***
temp 0.56762 0.02367 23.980 5.73e-14 ***
Tiene evidencia suficiente para afirmar que la variable score afecta el salario
mensual m´aximo? Informe el valor de la tabla que utiliza para responder dicha
pregunta.
#HACEMOS UN SUMMURY(MODELO) Y ME FIJO EL PVALOR....
PLANTEAMOS LA HIPOTESIS..
HO:NO AFECTA
H1:AFECTA
P-VALOS<0,05,,, AFECTA PORQUE RECHAZO LA NULA.
(VIENE DE LA HIPOTESIS PENDIENTE DISTINTO DE CERO)
nos interesa
exp( 1.889e-03*100)
#el 100 va porque nos dice que aumenta en 100 unidades.
Si nos da 1,70 , quiere decir que aumento un 70%
si nos da 0,80, quiere decir que disminuyo 20%.
#ELIMINACION DE OUTLIERS
redefinomos las variables factor y respuesta y usamos esas
solo uno
Gan=log(Ganancia)[-c(23)]
pagan=CantPag[-c(23)]
mas de uno
Publi = CantPag[-c(2,23)]
Gan = Ganancia[-c(2,23)]
#EJEMPLO
#transformacion +eliminacion outlier
modelo = lm(Ganancia~CantPag)
summary(modelo)
plot(CantPag,Ganancia)
abline(modelo)
# la recta no parece ajustarse a los datos, hay un posible outlier
# c)
par(mfrow=c(2,2))
plot(modelo)
# Se observa una curvatura en los residuos y no parece cumplirse el
supuesto de
# normalidad de los residuos.
# hay posible outlier
# d)
library(car)
influenceIndexPlot(modelo)
outlierTest(modelo)
Publi = CantPag[-c(2,23)]
Gan = Ganancia[-c(2,23)]
modelo2 = lm(Gan ~Publi)
summary(modelo2)
par(mfrow=c(2,2))
plot(modelo2)
# e)
boxcox(modelo2)
# la transformacion correcta parece ser la raiz cuadrada
modelo3 = lm(sqrt(Gan)~Publi)
par(mfrow=c(2,2))
plot(modelo3)
influenceIndexPlot(modelo3)
outlierTest(modelo3)
# f)
summary(modelo3)
# el p-valor = 5.19e-12 < 0.05, por lo tanto, el número de páginas
dedicadas a la
# publicidad, afecta la ganancia obtenida
# h)
sqrt_GANANCIA16 = 1.09866 + 0.20136 * 16
# 4.32042
# Por lo tanto, la ganancia media si se dedican 16 paginas a
# publicidad, es 4.32042^2 = 18.666