Intervalos de Confianza Simultáneos

Universidad Anhuac Mayab
Anlisis Multivariado
Profesor. Leonardo Araujo
Tarea 2. Inferencias para un vector de medias
Baqueiro Hadad Paulina

Gutirrez Oropeza Cecilia
Ibarra Ruiseor Mara del Mar
Lpez Laviada Ana Paulina
Mrida, Yucatn, Mxico
24 de octubre del 2015
TAREA 2
EJERCICIO 5.1
Evale T2 para probar H0: =[7,11]
Cdigo
x<- matrix(c(2,8,6,8,12,9,9,10),4,2);x
n=4
p=2
xbar<- colMeans(x); xbar
s<- cov(x); s
si<-solve(s); si
alfa=0.05
mu <- matrix(c(7,11),1,2); mu
difx<- xbar-mu; difx
T2 <- n%*%difx%*%si%*%t(difx); T2
((n-1)*p)/(n-p)
F<-qf(1-alfa,p,n-p);F
R<-((n-1)*p*F)/(n-p);R
Resultados
#(a)T2=13.64
#(b)Distribucin 3 F2-2
#(c)13.64<57 ... No se debe rechazar H0 en favor de H1 al 5% de nivel
de significancia
EJERCICIO 5.2
Cdigo
#original
x<- matrix(c(6,10,8,9,6,3),3,2); x
s<- cov(x);s
sinv <- solve(s); sinv
mu<- matrix(c(9,5),1,2); mu
T2 <- 3%*%difx%*%sinv%*%t(difx); T2
#modificado
x<- matrix(c(6-9,10-6,8-3,6+9,10+6,8+3),3,2); x
s<- cov(x);s
sinv <- solve(s); sinv
mu<- matrix(c(9-5,5+9),1,2); mu
T2 <- 3%*%difx%*%sinv%*%t(difx); T2
Resultados
# T2original=T2modificado
#0.77778 = 0.77778 Se comprueba la igualdad
EJERCICIO 5.4
B) Construye qqplot para las observaciones de sweat, de
contenido de sodio y de potasio. Construye las 3 posibles
graficas. parece que la distribucin normal multivariada se
justifica?
Cdigo
sweat <- read.csv("Sweat Data.csv", header=T); sweat
hist(sweat[,1], col='skyblue')
qqnorm(sweat[,1], pch=2); qqline(sweat[,1],col='blue')
hist(sweat[,2], col='lightpink')
qqnorm(sweat[,2], pch=3); qqline(sweat[,2], col='pink')
hist(sweat[,3], col='beige')
qqnorm(sweat[,3], pch=9); qqline(sweat[,3], col='orange')
mshapiro.test(t(sweat[,1]))
Resultados
##PARA 1
#Histograma, QQ plot
## SShapiro-Wilk normality test

## data: Z
## W = 0.97578, p-value = 0.8689
##PARA 2
##Shapiro-Wilk normality test

##data: Z
##W = 0.98584, p-value = 0.9862
##PARA 3
## Shapiro-Wilk normality test

## data: Z
## W = 0.96385, p-value = 0.6233
##viendo las grficas qqplot si parece formarse una lnea recta con las
variables, sin embargo al no ser muchos datos, con el histograma no se puede
obtener una conclusin,
Por lo que utilizando shapiro.test pudimos llegar mejor a la conclusin de que si
se tiene una distribucin normal multivariada.
EJERCICIO 5.5
Prueba de hiptesis y elipse de confianza
Cdigo
rad <- read.csv("rad.csv", header=T)
xb<- colMeans(rad)
S<- cov(rad)
xbar<- matrix(c(.564,.603),1,2); xbar
s<- matrix(c(.0144,.0117,.0117,.0146),2,2); s
si<-matrix(c(203.018,-163.391,-163.391,200.228),2,2); si
n=42
p=2
alfa=0.05
mu <- matrix(c(.55,.60),1,2); mu
T2 <- n%*%difx%*%si%*%t(difx); T2
F<-qf(1-alfa,2,40);F
R<-((n-1)*2*F)/(n-p);R
library("mixtools")
plot(rad, pch=4, col="blue"); ellipse(mu=xb, sigma=S, alpha = alfa,
npoints = 2000, col="pink"); points (.562,.589)
Resultados
# si T2 > (n-1)pF/(n-p) ... se rechaza H0; 1.17<6.62 ... No se debe rechazar H0

en favor de H1 al 5% de nivel de significancia
#Los grficos coinciden con la conclusin de la prueba de hiptesis, dado que

el punto que representa a "0" se encuentra dentro de la regin que marca la
elipse de confianza, decimos que funciona como valor posible de ""
EJERCICIO 5.7
T2 intervalos simultneos
Cdigo
sweat <- read.csv("Sweat Data.csv", header=T); sweat

n=20
p=3
a=0.05
xbar<- colMeans(sweat); xbar
S<- cov(sweat);S
F<-qf((1-a), p, n-p); F
Ix1<- c(xbar[1]-sqrt(((p*(n-1))/(n*(n-p)))*F*S[1,1]), xbar[1]+sqrt(((p*(n-1))/
(n*(n-p)))*F*S[1,1])); Ix1
(n*(n-p)))*F*S[2,2])); Ix2
(n*(n-p)))*F*S[3,3])); Ix3
Resultados
# Para x1 hay un 95% de confianza de que el intervalo simultaneo (3.40,5.88)
contenga a "0"
# Para x2 hay un 95% de confianza de que el intervalo simultaneo
(35.05,55.74) contenga a "0"
# Para x3 hay un 95% de confianza de que el intervalo simultaneo (8.57,11.36)
contenga a "0"
Bonferroni
Cdigo
T<-qt(1-(a/(2*p)),(n-1)); T
I1<- c(xbar[1]-(T*sqrt(S[1,1]/n)), xbar[1]+(T*sqrt(S[1,1]/n))); I1
Resultados
# Para x1 hay un 95% de confianza de que el intervalo de Bonferroni
(3.64,5.64) contenga a "0"
(37.10,53.70) contenga a "0"
(8.85,11.08) contenga a "0"
Los intervalos simultneos abarcan mayor rango que los Bonferroni, esto es
ocasionado por la necesidad de acertar en las medias de las 3 variables a la
vez.
EJERCICIO 5.9
(a)Intervalo simultneo para muestras grandes
Cdigo
xbar<- matrix(c(95.52, 164.38, 55.69, 93.39, 17.98, 31.13 )); xbar
S<- matrix(c(3266.46, 1343.97, 731.54, 1175.50, 162.68, 238.37,
1343.97, 721.91, 324.25, 537.35, 80.17, 117.73, 731.54, 324.25,
179.28, 281.17, 39.15, 56.80, 1175.50, 537.35, 281.17, 474.98, 63.73,
94.85, 162.68, 80.17, 39.15, 63.73, 9.95, 13.88, 238.37, 117.73, 56.80,
94.85, 13.88, 21.26),6,6); S
n=61
p=6
a=0.05
X2<- qchisq(1-a, df=p);X2
Ix1<-c(xbar[1]-sqrt((X2*S[1,1])/n), xbar[1]+sqrt((X2*S[1,1])/n)); Ix1
Ix2<- c(xbar[2]-sqrt((X2*S[2,2])/n), xbar[2]+sqrt((X2*S[2,2])/n)); Ix2
Ix3<- c(xbar[3]-sqrt((X2*S[3,3])/n), xbar[3]+sqrt((X2*S[3,3])/n));Ix3
Resultados
# Para x1 hay un 95% de

(69.55,121.49) contenga a "0"
(152.17,176.59) contenga a "0"
(49.61,61.77) contenga a "0"
(83.49,103.29) contenga a "0"
(16.55,19.41) contenga a "0"
(29.03,33.22) contenga a "0"
confianza de que el intervalo simultaneo

(b) Elipse para peso medio y circunferencia

Cdigo
s<-matrix(c(3266.46,1175.5,1175.5,474.98),2,2);s
library(mixtools)
ellipse(c(xbar[1],xbar[4]),s, 0.05, npoints = 2000, newplot = TRUE, draw
= TRUE)
Resultados
(c) Bonferroni
Cdigo
z<-qnorm(1-(0.025/p));z 2.638257
B1<- c(xbar[1]-(z*sqrt(s[1]/n)), xbar[1]+(z*sqrt(s[1]/n)));
Resultados
# Para x1 hay un 95% de confianza de que

(76.21406, 114.82594) contenga a "0"
(155.304 173.456) contenga a "0"
(51.16709, 60.21291) contenga a "0"
(86.0281, 100.7519) contenga a "0"
(16.91447, 19.04553) contenga a "0"
(29.57248, 32.68752) contenga a "0"
B1
B2
B3
B4
B5
B6
el intervalo de Bonferroni
(d) Rectngulo de Bonferroni

Cdigo
t<-qt((.05/(2*6)),n-1);t -2.728552
B1<-(xbar[1])+(t*(sqrt(s[1]/n)));B1
B2<-(xbar[1])-(t*(sqrt(s[1]/n)));B2
B7<-(xbar[4])+(t*(sqrt(s[4]/n)));B7
B8<-(xbar[4])-(t*(sqrt(s[4]/n)));B8
= TRUE)
points(B1,B7, newplot=FALSE, draw=TRUE, col="red", pch='*')

Resultados
(e) Bonferroni head width- head length
Cdigo
n=61
p=7
xe<- xbar[6]-xbar[5]; xe
snew<- S[6,6]-(2*S[5,6])+S[5,5]; snew
T<-qt(1-(a/(2*p)),(n-1)); T
Ie<- c(xe-(T*sqrt(snew/n)), xe+(T*sqrt(snew/n))); Ie
Resultados
# Para head width- head length hay un 95% de confianza de que el

intervalo de Bonferroni (12.49,13.81) contenga a "mu0"
EJERCICIO 5.11
Para los anlisis de minerales en 9 cabellos antiguos, los
resultados de Cr(x1) y Sr(x2) se presentan en la tabla. Se
sabe que la presencia de .100ppm o menos de cromo sugiere
diabetes, mientras el estroncio revela consumo animal.
(a)elipse de confianza para 90% suponiendo muestra
aleatoria
Cdigo
x<-matrix(c(0.48, 40.53, 2.19, 0.55, 0.74, 0.66, 0.93, 0.37, 0.22, 12.57,
73.68, 11.13, 20.03, 20.29, 0.78, 4.64, 0.43, 1.08),9,2); x
xbar<-colMeans(x); xbar
s<- cov(x); s
si<- solve(s); si
alfa=0.10
n=9
p=2
library("mixtools")
plot(x, ypch=4, xlim=c(-25,50), ylim=c(-50,80), col="purple")
ellipse(mu=xbar, sigma=s, alpha = alfa, npoints = 2000, col="red")
Resultados
(b)Intervalos de confianza simultneos para 90% de

confianza.. Evale el valor medio de 30, 10 en los niveles,
comente su resultado
Cdigo
F<-qf((1-alfa), p, n-p); F
Ix1<- c(xbar[1]-sqrt(((p*(n-1))/(n*(n-p)))*F*s[1,1]), xbar[1]+sqrt(((p*(n1))/(n*(n-p)))*F*s[1,1])); Ix1
qqline(-4.83,col='blue');qqline(36.97,col='blue');
Resultado
#I1(-6.881, 17.252), I2(-4.827, 36.967) para una confianza del 90%, de
manera simultnea, las medias se deberan encontrar dentro de estos
intervalos.
#los valores medios 0.30,10 son un valor posible, ya que ambos se
encuentran simultneamente dentro de los intervalos correspondientes.
(c)Parecen ser bivariados normal?

Cdigo
hist(x[,1], col='green')
qqnorm(x[,1], pch=9); qqline(x[,1], col='darkgreen')
mshapiro.test(t(x[,1]))
hist(x[,2], col='yellow')
qqnorm(x[,2], pch=9); qqline(x[,2], col='orange')
mshapiro.test(t(x[,2]))
Resultado
#PARA X1
#Shapiro-Wilk normality test

#data: Z
#W = 0.42375, p-value = 8.085e-07
#PARA X2
#
Shapiro-Wilk normality test
#data: Z
#W = 0.68941, p-value = 0.001067
#tanto en los histogramas, como en las grficas QQ y la prueba de
Shapiro se puede notar que las variables esn lejos de presentar una
distribucin normal bivariada, por lo que se rechaza la hiptesis de
normalidad bivariada a una significancia de 0.01.
(d)Repita el anlisis eliminando los outlyers, comente si hay o

no cambios.
Cdigo
lx1<-c((xbar[1]-(2*sqrt(s[1,1]))), xbar[1]+(2*sqrt(s[1,1]))); lx1
lx2<-c((xbar[2]-(2*sqrt(s[2,2]))), xbar[2]+(2*sqrt(s[2,2]))); lx2
x<-matrix(c(0.48, 2.19, 0.55, 0.74, 0.66, 0.93, 0.37, 0.22, 12.57, 11.13,
20.03, 20.29, 0.78, 4.64, 0.43, 1.08),8,2); x
xbar<-colMeans(x); xbar
s<- cov(x); s
si<- solve(s); si
alfa=0.10
n=8
p=2
library("mixtools")
plot(x, ypch=4, xlim=c(-1,3), ylim=c(-12,30), col="purple")
ellipse(mu=xbar, sigma=s, alpha = alfa, npoints = 2000, col="red")
F<-qf((1-alfa), p, n-p); F
qqline(0.47,col='blue');qqline(17.27,col='blue');
hist(x[,1], col='green')
qqnorm(x[,1], pch=9); qqline(x[,1], col='darkgreen')

shapiro.test(x[,1])
hist(x[,2], col='yellow')
qqnorm(x[,2], pch=9); qqline(x[,2], col='orange')
shapiro.test(x[,2])
Resultados
#I1(0.149, 1.386), I2(0.468, 17.269) para una confianza del 90%, de

manera simultnea, las medias se deberan encontrar dentro de estos
intervalos.
#los valores medios 0.30,10 son un valor posible, ya que ambos se
encuentran simultneamente dentro de los intervalos correspondientes.
#PARA X1

#data: Z
#W = 0.76182, p-value = 0.01103
#PARA X2

#data: Z
#W = 0.85803, p-value = 0.1148
#tanto en los histogramas, como en las grficas QQ y la prueba de
Shapiro se puede notar que la variable 1 est lejos de presentar una
distribucin normal bivariada, aunque la variable 2 si lo cumple pues
todos sus puntos se comportan linealmente y el histograma va tomando
la forma de la campana de gauss de manera ligera.
#En general se concluye que los cambios que se obtuvieron al eliminar
ese primer outlyer nos dejan con muestras distribuidas de manera ms
normal, y sus anlisis suelen ser ms acertados.
EJERCICIO 5.19
#(a)CONSTRUYE LA ELIPSE DE 95% DE CONFIANZA PARA LAS
MEDIAS(x1,x2) DE LA MATRIZ
Cdigo
a<-read.csv("lumber.csv",header=T);a
n<-30;p<-2
F<-qf(.95,df1=p,df2=n-p);F
xbar<-colMeans(a);xbar
s<-cov(a);s
= TRUE)
RESULTADO
b) SIENDO Ho:u=(2000,10000) prueba que representa valores tipicos de

acuerdo a la elise de a)
Cdigo
points (2000,10000, col='red')
RESULTADO
Como vemos en la elipse, el punto

u=(2000,10000) si se encuentra
contenido, por lo que no podemos
rechazar la Ho, aunque para que esta
resion de confianza sea mejor
representacin de esa u, el punto debera
estar ms centrado.
c) La distribucin bivariada es viable en este modelo?
Para probar una distribucin normal con la Ho: la distribucin es normal,
con alpha= .05
Cdigo
shapiro.test(a[,1]);shapiro.test(a[,2])
qqnorm(a[,1]); qqline(a[,1])
qqnorm(a[,2]);qqline(a[,2])
mshapiro.test(t(a))
RESULTADO
data: a[, 1]
W = 0.9749, p-value = 0.6798
data: a[, 2]
W = 0.97552, p-value = 0.6979
Con esta prueba el p-valor es mayor a .05 por lo que si se cumple que es
normal.
Observando las graficas qqplot:
Con las graficas qq no tenemos informacion clara para asegurar que

tenemos una distribucion normal o no.
Para probar una distribucion bivareada con alpha de .05
data: Z
W = 0.93454, p-value = 0.0649
Tenemos que no se rechaza la hiptesis de tener una distribucin normal
bivareada.
EJERCICIO 5.22
Q-Q PLOTS
Cdigo
#Graficos y pruebas de normalidad
M <- read.csv("5.22.csv", header=T); M
hist(M[,1], col='skyblue')
qqnorm(M[,1], pch=2)
qqline(M[,1],col='blue')
hist(M[,2], col='pink')
qqline(M[,2],col='pink')
hist(M[,3], col='green')
qqline(M[,3],col='green')
shapiro.test(M[,1])
shapiro.test(M[,2])
shapiro.test(M[,3])
MSO <- read.csv("5.22 sin outliers.csv", header=T); MSO
qqnorm(MSO[,1], pch=2)
qqline(MSO[,1],col='blue')
qqline(MSO[,2],col='pink')
qqline(MSO[,3],col='green')
shapiro.test(MSO[,1])
Resultados
Variable 1: Fuel
Variable 2: Repair
Variable 3: Capital
VARIABLES SIN OUTLIERS

Variable 1: Repair
Variable 2: repair
Variable 3:
Para las pruebas de normalidad:

Tomando las alphas = 0.01, 0.05 y 0.1:
Variables con outliers
shapiro.test(M[,1])
data: M[, 1]
W = 0.82747, p-value = 0.0006775
R: No normal para todos los casos.
shapiro.test(M[,2])
data: M[, 2]
W = 0.92576, p-value = 0.06939
R: Es normal solo cuando tomamos como alpha 0.05 y 0.01 por ejemplo,
al tomat alpha=0.1 resulta no ser normal.

shapiro.test(M[,3])
data: M[, 3]
W = 0.96902, p-value = 0.6204
R: Es normal para todos los casos (alpha = 0.05,0.01,0.1)
Variables sin outliers
data: MSO[, 1]
W = 0.98351, p-value = 0.9564
R: normal para todos los casos
data: MSO[, 2]
W = 0.91177, p-value = 0.04452
R: normal para los casos de alpha=0.05,0.01 pero no es normal cuando
alpha=0.1.
data: MSO[, 3]
W = 0.97264, p-value = 0.7519
R:Normal para todos los casos.
EN RESUMEN: Al sacar los outlieres, la variable 1 (fuel) tuvo una
distribucion normal, al principio (con los datos completos), esta variable
era no normal para todos los casos, ya que tenia valores extremos. Al
quitarlos se volvio normal para todos los casos que tomamos para la
alpha. La variable 2(reoair) y la variable 3(capital) permanecieron
constantes.
B)
Bonferroni
Cdigo
n<-25
p<-3
a<-0.05
xbar<- colMeans(M); xbar
S<- cov(M);S
F<-qf((1-a), p, n-p); F
T<-qt(1-(a/(2*p)),(n-1)); T
Resultados
# Para x1 (fuel) hay un 95% de confianza de que el intervalo de Bonferroni
(9.789733,15.330267) contenga a "0"
# Para x2 (repair) hay un 95% de confianza de que el intervalo de Bonferroni
(5.777122, 10.545278) contenga a "0"
# Para x3 (capital) hay un 95% de confianza de que el intervalo de Bonferroni
(8.646243, 12.442557) contenga a "0"
Intervalos T^2
Cdigo
n<-25
p<-3
a<-0.05
xbar<- colMeans(M); xbar
S<- cov(M);S
F<-qf((1-a), p, n-p); F
Ix1<- c(xbar[1]-sqrt(((p*(n-1))/(n*(n-p)))*F*S[1,1]), xbar[1]+sqrt(((p*(n1))/(n*(n-p)))*F*S[1,1])); Ix1
Resultados
# Para x1 (fuel) hay un 95% de confianza de que el intervalo de T^2
(9.159708,15.960292) contenga a "0"
# Para x2 (repair) hay un 95% de confianza de que el intervalo de T^2
(5.234926,11.087474) contenga a "0"
# Para x3 (capital) hay un 95% de confianza de que el intervalo de T^2
(8.214557 12.874243) contenga a "0"
Resumen: los dos tipos intervalos son muy parecidos, el cambio entre ellos son
tan solo decimales.

Intervalos de Confianza Simultáneos

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Intervalos de Confianza Simultáneos

Загружено:

Авторское право:

Доступные форматы

Universidad Anhuac Mayab

Tarea 2. Inferencias para un vector de medias

Baqueiro Hadad Paulina

Mrida, Yucatn, Mxico

24 de octubre del 2015

## SShapiro-Wilk normality test

##Shapiro-Wilk normality test

## Shapiro-Wilk normality test

# si T2 > (n-1)pF/(n-p) ... se rechaza H0; 1.17<6.62 ... No se debe rechazar H0

#Los grficos coinciden con la conclusin de la prueba de hiptesis, dado que

sweat <- read.csv("Sweat Data.csv", header=T); sweat

# Para x1 hay un 95% de

confianza de que el intervalo simultaneo

(b) Elipse para peso medio y circunferencia

# Para x1 hay un 95% de confianza de que

(d) Rectngulo de Bonferroni

points(B2,B7, newplot=FALSE, draw=TRUE, col="red", pch='*')

(e) Bonferroni head width- head length

# Para head width- head length hay un 95% de confianza de que el

(b)Intervalos de confianza simultneos para 90% de

(c)Parecen ser bivariados normal?

#Shapiro-Wilk normality test

(d)Repita el anlisis eliminando los outlyers, comente si hay o

qqnorm(x[,1], pch=9); qqline(x[,1], col='darkgreen')

#I1(0.149, 1.386), I2(0.468, 17.269) para una confianza del 90%, de

#Shapiro-Wilk normality test

#Shapiro-Wilk normality test

b) SIENDO Ho:u=(2000,10000) prueba que representa valores tipicos de

points (2000,10000, col='red')

Como vemos en la elipse, el punto

Con las graficas qq no tenemos informacion clara para asegurar que

VARIABLES SIN OUTLIERS

Para las pruebas de normalidad:

al tomat alpha=0.1 resulta no ser normal.

Вам также может понравиться